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Zusammenfassung 


Die vorliegende Arbeit untersucht, unter welchen Bedingungen im Rahmen ei- 
ner Begutachtung zur Feststellung sonderpädagogischen Unterstützungsbedarfs 
Intelligenztests durchgeführt werden und wie sich die unterschiedlichen Bedin- 
gungen auf Schwierigkeiten bei der Anwendung auswirken. Die Analyse der 
Schwierigkeiten ist hilfreich, um Empfehlungen für den Umgang mit den Tests 
zu entwickeln. 

Intelligenztests - im Besonderen mehrdimensionale Verfahren - sind durch 
eine Vielzahl von zu beachtenden Regeln in der Anwendung schwierig und be- 
nötigen Routine und Erfahrungswissen, da ansonsten die Durchführungs- als 
auch die Auswertungsobjektivität gefährdet sein kann. 

Unter anderem wird mit einem erstellten Schwierigkeiten-Index untersucht, 
ob Arbeitsbedingungen auf Problematiken bei der Anwendung Einfluss neh- 
men können, wie sich Unterschiede in der universitären Ausbildung auswirken, 
oder ob es von Bedeutung ist, in welchem Bundesland getestet wird. 

Mit Hilfe eines selbst konstruierten Fragebogens resultieren die Berechnun- 
gen aus der Befragung von 1077 SonderpädagoglInnen, die Fragen konzentrier- 
ten sich auf elf häufig angewendete Intelligenztests. 

Ergänzt wird die Studie durch die Analyse von 248 Testformularen, welche 
auf Auswertungsfehler untersucht wurden - angefertigt während einer Gutach- 
tenerstellung. Während die Antworten aus den Fragebögen Einschätzungen 
darstellen, resultieren aus der Analyse der Testformulare objektiv feststellbare 
Hinweise auf typische Anwendungsfehler. 

Zusammengenommen belegen die Ergebnisse vielfältige Schwierigkeiten bei 
der Anwendung von Intelligenztests, signifikante Unterschiede in Abhängigkeit 
vom Bundesland, in dem getestet wird, und belegen die Bedeutung einer um- 
fassenden universitären Ausbildung zur Testdiagnostik. 

Abschließend werden aus den Studienergebnissen resultierende Vorschläge 
zur Verbesserung der Durchführungsbedingungen vorgestellt, z.B. eine Spezia- 
lisierung weniger SonderpädagogInnen bei der Anwendung der komplexeren 
Tests, aber auch Hinweise zur Konstruktion der Verfahren, die angemessener 
den Rahmen berücksichtigen, in denen in der Sonderpädagogik Intelligenztests 
genutzt werden. 
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1 Einleitung 


Die Durchführung von Intelligenztests (z.B. WISC-IV, IDS, SON R 6-40, K- 
ABC/K-ABC II) setzt eine genaue Kenntnis der Durchführungsregeln der je- 
weiligen Verfahren voraus. Darüber hinaus postuliert Bundschuh (2010), dass 
Aussagen über die Berechnung eines Intelligenzquotienten hinaus es „einer gu- 
ten Kenntnis dessen [bedarf], was der jeweilige Test beinhaltet, seiner Kon- 
struktion, seiner Implikationen, vor allem der ihm zugrunde liegenden Theo- 
rie“ (ebd., S. 184). Helmke (2007, S. 85) beschreibt diagnostisches Wissen als 
zwingende Voraussetzung für eine individuelle Förderung. 

Es gehört zur Stellenbeschreibung von Sonderpädagoglnnen, standardisierte 
Verfahren durchführen, auswerten und interpretieren zu können. Nach durch- 
geführten Schulungen, an denen zwischen 2009 und 2016 bisher ca. 9000 Per- 
sonen teilnahmen? - überwiegend mit Sonderpädagoglnnen als TeilnehmerIn- 
nen -, kann behauptet werden, dass die Durchführungsregeln nicht hinreichend 
gewürdigt werden und die Bedeutung der Regeln für die objektive Begutach- 
tung unterschätzt wird. 

Dies gilt im Übrigen auch für die an den Seminaren teilnehmenden Psycho- 
logInnen. Hinzu kommt, dass vorliegende Testergebnisse unterschiedlich inter- 
pretiert werden, die aus den Interpretationen abgeleiteten (sonderpädagogi- 
schen) Empfehlungen also nicht einheitlich ausfallen. Beispiele: 

Bei der Durchführung der Diagnostikseminare konnte beobachtet werden’, 


e dass das Testalter häufig falsch berechnet wird, so dass die Rohwerte in der 
falschen Alterstabelle mit den standardisierten Werten verglichen werden, 

e es wird häufig ein Gesamt-IQ bei Intelligenzverfahren errechnet, ohne das 
für die Bestimmung der kognitiven Leistungsfähigkeit aussagekräftigere 
Vertrauensintervall anzugeben, 

e es werden Umkehrregeln häufig falsch angewendet, so dass der Ablauf eines 
Subtests falsch, die Reihenfolge der durchzuführenden Items fehlerhaft ist, 

e Durchführungsregeln werden wohlwollend ausgelegt, z.B. die Bearbeitungs- 
zeit eines Items weggelassen, ohne zu berücksichtigen, dass das Ergebnis 
dann keine Vergleichbarkeit mehr mit den Daten der Normstichprobe lie- 
fert. 


2 Schulungen zu normierten standardisierten Testverfahren, durchgeführt ab 2009. 

3 Z.B. durch Sichtung von Durchführungsformularen, die Teilnehmende mir zur Begut- 
achtung oder für besondere Fragestellungen vorlegten; es war allerdings nicht Ziel der 
Vorlage, diese auf Fehler zu untersuchen. Diese sind eher zufällig entdeckt worden. 
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Nach der Durchführung von mehr als 250 Diagnostikseminaren bis 2016 kann 
folgendes angenommen werden: 


e Die Durchführungsregeln der Testverfahren sind nicht hinreichend be- 
kannt, die Bedeutung der richtigen Anwendung und somit die Bedeutung 
einer ausführlichen Einarbeitung für eine korrekte Interpretation wird un- 
terschätzt (bzw. wird für die Vorbereitung nicht genügend Zeit zur Verfü- 
gung gestellt). 

e Durch die angenommene falsche Anwendung der Intelligenztests kann ver- 
mutet werden, dass falsche Ergebnisse Einfluss auf die abschließende Beur- 
teilung der zu testenden Kinder hatten. 

e Es besteht eine Diskrepanz zwischen dem Anspruch einer objektiven Test- 
durchführung und strukturellen Vorgaben der Schulen, die eine Verwirkli- 
chung des objektiven Anspruchs erschweren, aber auch unverhältnismäßig 
komplizierten Durchführungsregeln der Testverfahren, die in einigen Fällen 
nachweislich widersprüchlich und nicht eindeutig sind, zuweilen sogar ver- 
sierten Fachleuten unverständlich erscheinen. 


Es könnte eingewendet werden, dass unerfahrene Personen an einer Fortbil- 
dung teilnehmen, um eben diese Fehler zu vermeiden. Zu Beginn eines Semi- 
nars wird allerdings die Testerfahrung erfragt und es gab praktisch keine Semi- 
nare ohne TeilnehmerInnen, die überwiegend bereits häufig Tests durchgeführt 
hatten. Als Motivation an der Teilnahme der Seminare wurde meist das Ken- 
nenlernen neuerer Testverfahren genannt. 

Hauptsächlich soll die Dissertation untersuchen, welche Schwierigkeiten bei 
der Durchführung von Intelligenztests auftreten und warum diese Schwierig- 
keiten auftreten. 

Abgeleitet werden könnten Hinweise für die Konstruktion zukünftiger In- 
telligenztests. Denn ein valider Test mit ausgezeichneten Testgütekriterien ver- 
liert an Aussagekraft, wenn er die Anforderungen des sonderpädagogischen 
Schulalltags nicht berücksichtigt und deshalb möglicherweise falsch durchge- 
führt wird. 

Abgeleitet werden könnte zudem eine Auswahl von aktuell häufig durchge- 
führten Testverfahren, welche im sonderpädagogischen Kontext gut anwendbar 
und aus Sicht der sonderpädagogischen Lehrkräfte von hohem Nutzen sind. 

Die bis hierhin beschriebenen Schwierigkeiten beruhen auf nicht validierten 
Erfahrungen und Beobachtungen, die weder in einem Setting festgestellt wor- 
den sind, welches wissenschaftlichen Standards entspricht, noch als Quelle für 
eine wissenschaftliche Studie dienen dürfen, da sie einem Eindruck entspre- 
chen. Ziel dieser Dissertation ist es, zu überprüfen, ob die subjektiv beobachte- 
ten Schwierigkeiten objektiv vorliegen. Dies ist nur im Rahmen einer wissen- 
schaftlich fundierten Studie möglich. 
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Die Dissertation soll nicht die Sinnhaftigkeit von Intelligenztests diskutieren 
und/oder untersuchen, nicht das Konstrukt Intelligenz generell in Frage stellen 
und auch nicht die Durchführung von psychologischen Tätigkeiten der Son- 
derpädagoglInnen (z.B. die Durchführung von Tests) in Frage stellen. 

Im theoretischen Kapitel wird nach einer Auseinandersetzung mit dem 
Konstrukt Intelligenz und der Beschreibung, wie Intelligenztests von Sonder- 
pädagogInnen im In- und Ausland eingesetzt werden, der Aufbau und die Güte 
von Intelligenztests im Mittelpunkt stehen. In der Sonderpädagogik gebräuch- 
liche Intelligenztests werden beschrieben inklusive der jeweils dazugehörigen 
theoretischen Grundlage bzw. des Intelligenzmodells’, welches die AutorInnen 
der jeweiligen Testverfahren als gültig postulieren. 

Im methodischen Kapitel wird begründet, warum die Fragestellungen nicht 
nur mit Hilfe eines Fragebogens (ausgefüllt von SonderpädagogInnen) beant- 
wortet werden sollen, sondern ergänzend Analysen von Durchführungsproto- 
kollen zur genaueren Beantwortung der Forschungsfragen beitragen sollen. Es 
wird begründet, warum und wie ein Schwierigkeiten-Index erstellt wird und 
warum und wie die Intelligenztests nach Dimensionalität und Komplexität un- 
terteilt werden. 

Im Ergebnisteil werden die Daten deskriptiv- und inferenzstatisch ausge- 
wertet. Nach der Analyse von Testformularen, die im Zuge einer Begutachtung 
angefertigt worden sind und im Rahmen dieser Studie auf Fehler untersucht 
werden, wird zudem qualitativ dargestellt, welche Auswirkungen aus Auswer- 
tungsmängeln resultieren. 

Abschließend werden im Kapitel 6 (Interpretation und Fazit) Ableitungen 
diskutiert für die Konstruktion von Intelligenztests, für die (schulischen) Rah- 
menbedingungen, für die Durchführung von Intelligenztests durch Sonder- 
pädagogInnen und für die Qualifikation von SonderpädagogInnen bezüglich 
der Durchführung von Intelligenztests. Da Intelligenztests die komplexesten 
standardisierten normierten Testverfahren darstellen, lassen sich somit generell 
Ableitungen für die Durchführung von standardisierten normierten Testver- 
fahren durch Sonderpädagoglnnen als Teilbereich innerhalb der Diagnostik im 
sonderpädagogischen Kontext vornehmen. 


4 Die KABC-II basiert sogar auf zwei Intelligenzmodellen, von denen eines wahlweise vor 
der Testung gewählt werden muss. 


15 


2  Theoretischer Hintergrund 


Im Folgenden sollen die Kapitel des theoretischen Teils näher begründet und 
die Bedeutung für diese Dissertation herausgestellt werden: 

Intelligenz (Kapitel 2.1): Bei der Anwendung eines Intelligenztests sind 
Kenntnisse über das Konstrukt Intelligenz unerlässlich, um die aus den Tests 
gewonnenen Ergebnisse interpretieren und in pädagogische Handlungen um- 
setzen zu können. Das erste Kapitel beschreibt die Schwierigkeiten bei der De- 
finition, aber auch die Bedeutung des Konstrukts Intelligenz. 

Kritik an der Intelligenzmessung (Kapitel 2.2): Intelligenztests sind in der 
Sonderpädagogik nicht unumstritten. Kritische Einwände gegenüber dem Ge- 
neralfaktor der Intelligenz, der meist mit einem Gesamt-IQ (Gesamt-Intelli- 
genzquotient) dargestellt wird, sind berechtigt. Es werden nicht nur methodi- 
sche, sondern auch ethische Aspekte bei der Berücksichtigung von Testergeb- 
nissen vorgestellt. Kenntnisse über kritische Einwände sind für Intelligenztests 
anwendende SonderpädagoglInnen nützlich, um die Relevanz von Testergebnis- 
sen ermessen und in die Gewichtung innerhalb anderer Bausteine der sonder- 
pädagogischen Diagnostik einordnen zu können. Die Problematik, ob bei der 
Interpretation von Testergebnissen die dargestellten kritischen Einwände ge- 
genüber der Intelligenztestung berücksichtigt werden, oder Testergebnisse als 
per se gültig akzeptiert werden, soll im methodischen Teil geklärt werden. 

Intelligenzmodelle (Kapitel 2.3): Die heute angewendeten Intelligenztests 
stehen teils in einer jahrzehntealten (teils jahrhundertealten) Tradition von In- 
telligenztests und -theorien, so dass ein kurzer Blick auf Forschungszweige zur 
Intelligenz nützlich ist, die in die heute angewendeten Intelligenztests münden. 
Ein ausführlicherer Blick gilt Intelligenztheorien, auf die sich explizit aktuell 
angewendete Intelligenztests berufen (Lurija-Modell; Kramer-Modell in Anleh- 
nung an den Binet-Simon-Test und vor allem das derzeit wichtige CHC-Mo- 
dell). Ausgespart wird nicht ein Blick auf eugenische Gedanken, die im Rahmen 
der Intelligenzforschung keine Randerscheinung darstellen. Die Optimierung 
und Förderung der Menschen unter Verhinderung weniger nützlicher Men- 
schen (Eugenik) steht im Gegensatz zur Akzeptanz und Förderung des einzel- 
nen Menschen (Sonderpädagogik). Kenntnisse über die Motivation eugenisch 
denkender (durchaus bedeutender) IntelligenzforscherInnen ist nützlich, um 
den Stellenwert von Intelligenztests und vor allem den Stellenwert hierarchi- 
scher Intelligenzmodelle angemessen beurteilen zu können. 

Anwendungen von Intelligenztests durch SonderpädagogInnen (Kapitel 2.4): 
Um im methodischen Teil die Schwierigkeiten im Umgang mit Intelligenztests 
besser erforschen zu können, werden bereits durchgeführte Untersuchungen 
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zum Thema vorgestellt. Dies ist notwendig, um beurteilen zu können, woran 
angeknüpft werden kann, welche Befunde vertieft erforscht werden sollten und 
für welche Themen Neuland betreten wird. Unterschieden wird zwischen Un- 
tersuchungen in Deutschland und im Ausland, die sich mit Schwierigkeiten im 
Umgang mit Intelligenztests beschäftigen. Dies macht Sinn, da sich die Stel- 
lenbeschreibungen deutscher SonderpädagogInnen von denen der Sonderpäd- 
agogInnen im Ausland unterscheiden können. Unterschiede sind möglich im 
Umfang psychologischer Tätigkeiten, wie z.B. die Anwendung von Intelligenz- 
tests. Dies ist zu klären, denn führten SonderpädagogInnen im Ausland kaum 
Intelligenztests durch, werden entsprechend keine Forschungsergebnisse im 
Umgang mit Intelligenztests durch SonderpädagogInnen vorliegen. 
Intelligenztests (Kapitel 2.5): Im letzten Kapitel des theoretischen Teils werden 
testtheoretische Aspekte vorgestellt, die im Zusammenhang mit der Fragestel- 
lung von Bedeutung sind. Es gibt z.B. bei der Anwendung von Intelligenztests 
bekannte Effekte (Mildefehler, Härtefehler, Beurteilungsfehler, Rosenthal-Ef- 
fekt etc.) auf Seiten der AnwenderInnen, die die Beurteilung der Testergebnisse 
erschweren und verzerren könnten. Bei der Anwendung von Intelligenztests 
kommt hinzu, dass sich immer auch die Frage stellt, wie gut die Testverfahren 
konstruiert und validiert sind. Testgütekriterien belegen die Qualität der Intel- 
ligenztests. Wird die Qualität eines Intelligenztests nicht hinreichend durch die 
Testgütekriterien belegt, führt die Beurteilung von Testergebnissen, erzielt mit 
einem Test mit schwachen Testgütekriterien, zu weiteren Schwierigkeiten auf 
Seiten der AnwenderInnen. Begründet wird eine Unterscheidung der Tests in 
ein- bzw. mehrdimensionale Tests und die Unterscheidung nach Komplexität. 


2.1 Intelligenz 


Das Vorliegen der Persönlichkeitsdimension Intelligenz beruht auf einer An- 
nahme. Ist ein Konstrukt nicht beweisbar und basiert somit auf der Annahme 
über dessen Existenz, ist dieses Konstrukt in der Regel nicht nur umstritten, 
sondern es existieren verschiedene theoretische Überlegungen dazu. So ist z.B. 
umstritten, ob Intelligenz mit Hilfe hierarchischer Modelle beschrieben werden 
kann, an dessen Spitze ein übergeordneter Intelligenzfaktor steht (vgl. Spear- 
man, 1904; Schneider & McGrew, 2012) oder ob es mehrere unabhängige Intel- 
ligenzen nebeneinander gibt (vgl. Guilford, 1977; Jäger, 1982). Dass Intelligenz 
lediglich das ist, was ein Intelligenztest misst, (Boring, 1923, S. 35) negiert kon- 
sequent zu Ende gedacht nicht die Existenz dieser Persönlichkeitsdimension, 
sondern beschreibt die methodische Schwierigkeit, einer Person eine bestimmte 
und somit definierte Intelligenz zuzuschreiben. In der Tat bleibt es fraglich, wie 
Intelligenz valide gemessen werden kann, wo weder dessen Existenz eindeutig 
nachgewiesen ist noch ein Konsens über eine Definition vorliegt. Ein grund- 
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sätzliches Problem auch in anderen Bereichen der Psychologie, die oft mit An- 
nahmen arbeitet. Intelligenz ist aber kein neutraler Begriff, sondern ein gewer- 
teter. Eine hohe Intelligenz wird positiv belegt, eine niedrige Intelligenz negativ. 
Würde man in einem Hochschulseminar fragen, ob jemand mit einem IQ von 
88 zufrieden wäre, denn immerhin sei man ja noch im Normbereich, so wäre 
die Bejahung dieser Frage unwahrscheinlich”. Man möchte intelligent sein, 
denn mit einer hohen Intelligenz wird beruflicher und sozialer Erfolg assoziiert, 
wenn nicht ein besseres Leben als mit einer niedrigen Intelligenz. Wer möchte 
nicht im Hochschulseminar sitzen, um später zur Intelligenz zu gehören, dem 
Sammelbegriff „als Name einer ganzen gesellschaftlichen Gruppe, der intellek- 
tuellen und kulturproduzierenden Elite“ (Holert, 2004, S. 126). AbiturientInnen 
demonstrieren gelegentlich stolz ihre mit dem Abschluss des Abiturs assoziierte 
höhere Intelligenz und die damit verbundene Zugehörigkeit zu einer Elite in ei- 
nem Schriftzug im Fond ihrer Autos, z.B. „ABI 2015“. Im Gegensatz zu ande- 
ren durchaus auch als bedeutsam postulierten Persönlichkeitsdimensionen wie 
Verträglichkeit, Extraversion, Gewissenhaftigkeit (vgl. McCrae & Costa, 1989) 
usw. ragt Intelligenz als Schwergewicht unter den Persönlichkeitsdimensionen 
heraus, es ist ein hoch „gelobtes Gut“ (Zimbardo, 1992, S. 444). Somit ist die 
Zuschreibung einer bestimmten Intelligenz für eine Person eine verantwor- 
tungsvolle Angelegenheit, da diese laufbahn- und schullaufbahnentscheidend 
sein kann. Die Belege dafür, dass die Zuschreibung einer bestimmten Intelli- 
genz für eine Person sogar lebensentscheidend sein kann, sind eindeutig. Im 
Gerichtsverfahren Atkins gegen Virginia beschreibt Chwallek (2005) den Fall 
von Daryl Atkins, der nach einer Verurteilung wegen Entführung, Raubes und 
Mord nicht zum Tode verurteilt wurde, da er mit einem IQ von 59 als geistig 
behindert galt. Eine Todesstrafe ist nach der amerikanischen Verfassung bei 
Vorliegen einer geistigen Behinderung nicht möglich. Nach Durchführung von 
Testwiederholungen erzielte er zu einem späteren Zeitpunkt einen IQ von 76 
bzw. 74 und galt somit nicht mehr als geistig behindert. Nach 13 Stunden Bera- 
tung wurde ein Hinrichtungsdatum festgelegt, da die Kriterien für die geistige 
Behinderung nicht mehr vorgelegen haben‘. 

Der von R.M. Yerkes 1917 entwickelte Army-Alpha-Test sah die Testung 
von Rekruten nach Eintritt der USA in den Ersten Weltkrieg vor (Funke & Va- 
terrodt, 2009). Mit diesem Test und dem ähnlichen Army-Beta-Test wurden 
über 1700000 Rekruten auf Intelligenz getestet. Ziel war die Einordnung in ei- 
nen militärischen Rang. Die Einordnung erfolgte in Form eines Buchstabens 
von A bis E. Für die Offizierslaufbahn kamen lediglich Rekruten von mindes- 


5 Manchem läge vermutlich sogar das Bonmot auf der Zunge, dass ein Studierender mit 
einem IQ von 88 gar nicht Studierender wäre. 

6 Die Todesstrafe wurde später in eine lebenslange Haftstrafe umgewandelt, da Verfahrens- 
fehler vorlagen. 
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tens C (eher A oder B) in Betracht. Auf die Spitze getrieben muss davon ausge- 
gangen werden, dass eine niedrige Intelligenzeinstufung ein Soldatendasein zur 
Folge hatte, welches gelegentlich umgangssprachlich als Kanonenfutter bezeich- 
net wird. 

Der Soziologe Pierre Bourdieu bringt die Intelligenztestung mit Rassismus 
in Zusammenhang. Unter anderem begründet er eine ablehnende Haltung so: 


Die Klassifizierung durch die Schule ist eine legitimierte und wissenschaftlich aus- 
gewiesene soziale Diskriminierung. Das Auftauchen von Intelligenztests (...) hängt 
damit zusammen, dass dank der Schulpflicht Schüler in das Schulsystem kamen, mit 
denen dieses Schulsystem nichts anzufangen wusste, weil sie nicht „prädisponiert“ 
waren, „nicht begabt“, das heißt, nicht von ihrem familiären Milieu her mit jenen 
Prädispositionen ausgestattet, die die Voraussetzung für das normale Funktionieren 
des Schulsystems sind: Kulturelles Kapital und guter Wille in Bezug auf die Schul- 
abschlüsse. Diese Tests, die die von der Schule verlangten sozialen Prädispositionen 
messen, sind genau dazu da, jene schulischen Verdikte im Voraus zu legitimieren, 
durch die sie legitimiert werden; daher auch ihre Aussagekraft in Bezug auf den 
Schulerfolg. (Bourdieu, Beister & Schwibs, 1993, S. 254) 


Es wird nicht bezweifelt, dass es so etwas wie Intelligenz gibt. Es wird bezwei- 
felt, dass man den Grad der individuellen Intelligenz einer Person erfassen 
kann. Nicht nur, weil das Konstrukt Intelligenz unterschiedlich definiert wird, 
auch weil angezweifelt wird, der individuellen Intelligenz einer Person metho- 
disch auf die Spur kommen zu können und dies dann (radikal zu Ende gedacht) 
in einer Zahl zu manifestieren: dem Gesamt-IQ. 


2.2 Kritik an der Intelligenzmessung 


Bevor die unterschiedlichen Intelligenzmodelle vorgestellt werden, sollen die 
wichtigsten kritischen Einwände zur Intelligenzmessung zusammengefasst wer- 
den. 


2.2.1 Methodische Schwierigkeiten 


Unabhängig von der Definition wird Intelligenz als Intelligenz bezeichnet. 
Wenn aber je nach Definition außer der Überschrift die Annahmen dessen, was 
Intelligenz darstellen soll, sehr variieren, wie will man dann Intelligenz messen? 
Intelligenz ist nicht gleich Intelligenz, dies wird aber unterstellt, wenn das Re- 
sultat eines Intelligenztests meist ein Intelligenzquotient ist. Dann wäre Intelli- 
genzquotient nicht gleich Intelligenzquotient, was der Wahrnehmung des IQ 
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sowohl in der Wissenschaft als auch in der Allgemeinheit widerspricht. Steht in 
einer Sportzeitschrift, dass eine französische Tennisspielerin hochbegabt sei und 
einen IQ von 175 hat, dann wird angenommen, dass der IQ 175 beträgt und es 
würde kaum hinterfragt werden, welchem theoretischen Modell der durchge- 
führte Intelligenztest zu Grunde liegt’. Ein weiteres methodisches Problem ist 
die Abhängigkeit des Testergebnisses von Umgebungsvariablen während der 
Testsituation, z.B. Lichtverhältnisse, Klima, Ablenkung, ist das Kind ausgeruht, 
ist das Kind belastet, ist das Kind motiviert, ist die TesterIn nett, ist die TesterIn 
wohlwollend, ist die TesterIn kompetent usw. Da eine mögliche mangelhafte 
Durchführungsobjektivität ein Hauptbestandteil dieser Untersuchung ist, wird 
an dieser Stelle nicht genauer darauf eingegangen. 

Erwähnt sei in diesem Zusammenhang die Annahme, dass die Intelligenz, 
wie auch andere Konstrukte in einer Population, normalverteilt sein soll und 
mit der Glockenkurve nach Gauß (nach Carl Friedrich Gauß) dargestellt wird. 
Mienert & Pitcher (2011, S. 111) beklagen, dass diese Annahme weder bewiesen 
noch widerlegt werden kann und dass Intelligenztests so konstruiert werden, 
bis die Ergebnisse zum Konstrukt passen. 

Ob sich ein Intelligenztest als solcher bewährt oder nicht wird mit Hilfe von 
Testgütekriterien geprüft. Dazu wird unter anderem verglichen, ob ein neuer 
Test mit einem älteren anerkannten Test korreliert, ob also die Testergebnisse 
sich decken. Es wurde z.B. geprüft, ob die Testergebnisse der neuen KABC-I 
(Melchers & Melchers, 2014) mit den Testergebnissen der IDS (Grob, Meyer & 
Arx, 2009) korrelieren. Decken sich die Ergebnisse, wird dies als Beleg gewertet, 
dass der neue Intelligenztest ebenfalls Intelligenz misst. Wenn nun aber die be- 
währten Tests gar nicht Intelligenz testen, sondern Irgendetwas und es liegt 
eine Korrelation zu einem neuen Test vor, dann ist dies nicht ein Beleg dafür, 
dass der neue Intelligenztest Intelligenz misst, sondern Irgendetwas. Es bleibt 
zu hoffen, dass die ersten Testverfahren in dieser Reihe von fortlaufenden Kor- 
relationsstudien auch wirklich das gewünschte Konstrukt Intelligenz getestet 
haben. Ansonsten müsste man davon ausgehen, dass die Korrelationsstudien 
eine Art Hermann-Teig? darstellen. Im Gedanken ähnlich formulieren es Ame- 
lang und Zielinski (1994, S. 146), die den Intelligenztest von Binet & Simon 
(1905) zwar als ersten ernstzunehmenden Test bezeichnen, aus dem sich aber 


7 Es würde auch kaum hinterfragt werden, welcher Test denn auf den Punkt genau so gut 
misst und welcher Test überhaupt Gesamtwerte von IQ 175 in seinen Tabellen enthält. 
Eine Nachfrage über Facebook bei Marion Bartoli, welcher Test angewendet wurde, blieb 
unbeantwortet. 

8 Der Hermann-Teig ist ein Sauerteigansatz. Vor dem Backen wird ein Teil des Ansatzes 
entnommen, dieser vermehrt sich durch Hefepilzreaktionen und kann nach einiger Zeit 
für ein weiteres Brot verwendet werden - nachdem wiederum ein Teil vorher entnom- 
men wurde (Dr. Oetker Homepage, 2015). 
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keine differenzierten Diagnosen ableiten lassen, da die Aufgaben zu heterogen 
seien. Die Güte der ersten Tests aus der Wechsler-Reihe belegte Wechsler durch 
eine hohe Korrelation mit dem aus Sicht von Amelang und Zielinski fragwürdi- 
gen Test von Binet & Simon und sicherte den Wechsler-Tests die „historische 
Kontinuität“ (Amelang & Zielinski 1994, S. 146). 


2.2.2 Benachteiligung von Randgruppen durch unfaire 
Testbedingungen 


Häufig wird gegen den Einsatz von Intelligenztests eingewendet, dass diese be- 
sondere Bevölkerungsgruppen benachteiligen, z.B. Kinder mit Migrationshin- 
tergrund, Kinder aus sozial benachteiligten Familien. Typische Intelligenztests 
repräsentieren eher den kulturellen Hintergrund des meist westlich geprägten 
Landes, in dem der Test angewendet wird (Joel, 2018, S. 204). Verzerrungen 
können auftreten, wenn das getestete Kind einen anderen „kulturellen, sozialen 
und sprachlichen Hintergrund“ hat (Zimbardo, 1992, S. 454). 

Angenommen, ein syrisches Flüchtlingskind wird drei Wochen nach seiner 
Ankunft in Deutschland mit einem Test getestet, bei dem die Anweisungen in 
Deutsch vorgegeben werden müssen, z.B. Text-Rechenaufgaben wie im Subtest 
Rechnerisches Denken im HAWIK-IV (Petermann & Petermann, 2007). Das 
Kind würde eine Textaufgabe nicht verstehen und das Item würde mit falsch 
bewertet werden. Auch wenn das Kind gut rechnen könnte, würde die rechneri- 
sche Kompetenz nicht erfasst werden können. In diesem Fall würde kaum die- 
ser sprachlastige Subtest durchgeführt werden. Denkbar wäre jedoch die Test- 
durchführung, nachdem das Kind bereits vier Jahre in Deutschland lebt und 
gut deutsch spricht. Es macht aber nach wie vor einen Unterschied, ob ein Kind 
in seiner Muttersprache oder in einer erlernten Sprache getestet wird. Durch 
die Konstruktion sprach- und kulturfairer Intelligenztests sollte dieses Problem 
behoben werden. Doch erscheint fraglich, ob ein Test losgelöst von kulturellen 
Einflüssen konstruiert werden kann. So muss z.B. das Kind gewohnt sein, am 
Tisch Denkaufgaben lösen zu können und logisch planvoll vorzugehen. Es sind 
z.B. Verzerrungen im Testergebnis denkbar für aus Bürgerkriegsregionen ge- 
flüchtete Kinder durch die ungewohnten Rahmenbedingungen der Testsitua- 
tion (strukturiert planvolles Vorgehen am Tisch in einer Eins-zu-Eins Situation 
mit teils abstrakten Items), sofern diese Kinder niemals eine Schule besucht ha- 
ben und das Arbeiten am Tisch unbekannt ist. 

Serpell (1979) konnte kulturelle Unterschiede bei der Bewältigung von Auf- 
gaben nachweisen, indem er englische und sambische Kinder aufforderte, Mus- 
ter mit unterschiedlichen Materialien nachzuvollziehen. Während sambischen 
Kindern dies mit Draht besser gelang, konnten englische Kinder die Aufgabe 
besser mit Stift und Papier bewältigen (Geißler, 2008, S. 37). 
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Der Mitte der 70er Jahre ermittelte Unterschied zwischen weißen und 
schwarzen Kindern in den USA (Loehlin, Lindzey & Spuhler, 1975) (schwarze 
Kinder lagen knapp eine Standardabweichung unter dem Durchschnittswert 
weißer Kinder) wird mit ungleichen Bildungschancen und unfairen Testbedin- 
gungen erklärt werden müssen, würde man nicht eine intellektuelle Überlegen- 
heit der weißen Rasse gegenüber der schwarzen Rasse postulieren, wie es im 
Anschluss an diesen und ähnlichen Studien rassistisch motivierte PolitikerIn- 
nen taten. 


2.2.3  Exklusion, Selektion und Separation als mögliche Folge 
der Statusdiagnostik 


Insbesondere in der Sonderpädagogik wurde in teilweise heftig geführten Dis- 
puten eine Diagnostik in Frage gestellt, die einen Ist-Zustand mit Hilfe standar- 
disierter normierter Testverfahren ermittelt. Dies führe zu einer Diagnostik, die 
sich an pathologisch-medizinischen Modellen orientiere und der Selektion diene 
(Eberwein, 1996), stigmatisierend sei und mit dem Recht auf inklusive Bildung 
„unvereinbar“ ist (Schumann, 2013, ohne Seitenangabe). Das aus der Kritik an 
der Selektionsdiagnostik und Einweisungsdiagnostik (Kobi, 1977) resultierende 
Modell der Förderdiagnostik fand in der Sonderpädagogik starke Beachtung 
und verbreitete sich so stark, dass von einem Paradigmenwechsel gesprochen 
wurde, sofern die Testung mit normierten Testverfahren als Paradigma und die 
Förderdiagnostik als das neue Paradigma bezeichnet werden kann. Das Kon- 
zept der Förderdiagnostik wurde von renommierten WissenschaftlerInnen auf- 
gegriffen und gelehrt (Bundschuh, 1985, 2007; Eberwein & Knauer, 1998). Das 
mit der Durchführung normierter Testverfahren assoziierte Menschenbild ste- 
he im Widerspruch zu einer Sonderpädagogik, die sich an humanitären Grund- 
sätzen orientiert, während die herkömmliche Diagnostik mit Hilfe von nor- 
mierten Verfahren als Einweisungsdiagnostik beschrieben wird (Eggert, 1997). 
Eggert beschreibt diesen Zustand mit einem „Unbehagen an der Diagnostik“ 
(Eggert, 1997, S. 71). Überraschend moderat resümiert Bundschuh, dass die Be- 
rechnung eines Intelligenzquotienten „ein gewisses unsicheres Moment darstel- 
le“ (2008, S. 184), doch ist der Konflikt Statusdiagnostik versus Förderdiagnos- 
tik eher von Schärfe geprägt. Letztlich wurde dieser Art von (Status-)Diagnostik 
vorgeworfen, sie orientiere sich an der Fragestellung, ob ein Kind vom bisheri- 
gen Schulsystem separiert werden soll und in Folge sonderpädagogisch in För- 
derschulen beschult wird und damit ausgesondert (separiert) wird. Dies sei an 
einer gesellschaftlich festgelegten Norm gekoppelt und nicht an den individuel- 
len Bedürfnissen, Zielen und Fortschritten des Kinds, für das die Förderdia- 
gnostik bzw. Lernprozessdiagnostik stehe. So werden zuweilen Testverfahren 
wie Intelligenztests als „harte“ Verfahren bezeichnet, während förderdiagnosti- 
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sche Verfahren als „weiche“ Verfahren bezeichnet werden (Kottmann, 2006, 
S. 125). Da mit dem Gebrauch von Worten Vorstellungen und Gedanken ge- 
koppelt sind, spiegelt der Gebrauch der Worte hart und weich gut die Schärfe 
wider, die die Diskussion bestimmte, denn wer wollte mit einem Kind harte 
Maßnahmen durchführen’. Nicht minder scharf fielen die Kritiken an die Kri- 
tiker bisheriger sonderpädagogischer Diagnostik aus. In einer Bilanz zu 30 Jah- 
re „Förderdiagnostik“ [sic, Förderdiagnostik wird in Anführungszeichen ge- 
setzt, Anmerkung T.J.] (Schlee, 2008) wird den VertreterInnen dieses Ansatzes 
vorgeworfen, dass das Konzept der Förderdiagnostik auf falschen Annahmen 
beruhe. So ist eine Beschulung nach einer Statusdiagnostik (die z.B. den son- 
derpädagogischen Förderbedarf Geistige Entwicklung attestiert) in einer Son- 
derschule nicht verwerflich, sondern das Nicht-Einlösen der in der Sonder- 
pädagogik „proklamierten Ansprüche“ (Schlee, 2008, S. 124). Indem mit einer 
Beschulung in einer Sonderschule schlechtere Zukunftschancen angenommen 
werden, werden die Methoden kritisiert (z.B. Intelligenztests), die zu dieser Be- 
schulung führen, obwohl die Diagnostik gar nichts mit den schlechteren Zu- 
kunftschancen zu tun hat, sondern die pädagogische Umsetzung in der Son- 
derschule. Es wird kritisiert, dass die Förderdiagnostik zwar einer guten Absicht 
entspringt, aber weder empirisch belegt wurde noch die Nützlichkeit nachge- 
wiesen ist (Schlee, 2008, S. 122). Häufig wird in der Pädagogik und Psychologie 
die ganzheitliche Betrachtung des Menschen gefordert, so auch von Vertre- 
terInnen der Förderdiagnostik. Doch darf dies als nebulöse Metapher betrachtet 
werden, deren Umsetzung angesichts der Komplexität des Menschen unmög- 
lich erscheint. Einem wichtigen Vertreter der Förderdiagnostik, Prof. Bund- 
schuh, wirft Schlee vor, sich als „ein einsamer Rufer für die Menschlichkeit 
(...)“ darzustellen, der sich am „Beginn des dritten Jahrtausends (...) an vielen 
Fronten in ganzheitlicher Sicht engagiert (...)“ (Schlee, 2008, S. 129). Schlee 
schlussfolgert, dass man angesichts der Vielzahl von proklamierten hehren Zie- 
len der Förderdiagnostik sich kaum traut, „nach Begründungen oder Konkreti- 
sierungen zu fragen (...)“ (Schlee, 2008, S. 130). 


2.3 Intelligenzmodelle 


Bei vorherrschender Uneinigkeit dessen, was Intelligenz sein oder auch nicht 
sein soll, müssen die verschiedenen Intelligenztheorien beschrieben werden. Da 
ein Intelligenztest auf einer Intelligenztheorie beruht, wird an späterer Stelle auf 
diese Theorien zurückgegriffen werden müssen. 


9 Auch der Begriff Selektion ist negativ konnotiert und erinnert an die Selektion von JüdIn- 
nen und anderen Personengruppen während des Nationalsozialismus. 
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Die Intelligenzforschung, die daraus resultierenden Konzeptionen und die 
sich daraus abgeleiteten Versuche, die Konzeptionen psychometrisch zu erfas- 
sen, lassen sich nur schwer in einer kurzen Zusammenfassung darstellen, bei- 
spielsweise in einem Kapitel mit den fünf wichtigsten Intelligenztheorien. Es 
gibt Theorien, die einen übergeordneten Intelligenzfaktor erkennen, Theorien, 
die mehrere Intelligenzfaktoren gleichbedeutsam nebeneinander annehmen, 
Theorien, die eher die Art und Weise, wie ein Individuum zu einer Problem- 
lösung kommt als Kern der Intelligenz annehmen und nicht unveränderliche 
und eher zeitstabile Persönlichkeitsmerkmale dahinter vermuten, Theorien, die 
negieren, dass die vorher genannten Theorien gültig sein können, da die Intelli- 
genz kulturabhängig sei und also eine Intelligenztheorie an die kulturellen Ge- 
gebenheiten adaptiert sein müssen und Theorien, die Intelligenz eher genetisch 
bedingt vermuten und nicht umweltbedingt sowie umgekehrt. Intelligenzfor- 
schung und Intelligenzmessung werden in der Regel als gleichbedeutsam be- 
schrieben. Allerdings wäre es auch möglich, Intelligenz unabhängig von der 
Messung zu untersuchen. Es ist denkbar, dass eine Definition von Intelligenz 
richtig ist, diese aber nicht mit Intelligenztests belegt werden kann. Es gibt viele 
methodische Schwierigkeiten bei der Bestimmung eines Intelligenzquotienten, 
die vielfach im Rahmen dieser Arbeit beschrieben werden. Es wäre also auch 
möglich, Intelligenz unabhängig von der Intelligenzmessung zu untersuchen. 
Da Intelligenz und Intelligenzmessung in der Regel gemeinsam diskutiert, zu- 
weilen sogar synonym verwendet werden, soll im Folgenden auch Intelligenz 
und Intelligenzmessung im Kontext betrachtet werden. Dies sei auch damit be- 
gründet, dass Intelligenztheorien faktorenanalytisch belegt werden. Die Fakto- 
renanalysen wiederum resultieren aus der Durchführung von psychometri- 
schen Verfahren zur Bestimmung von Intelligenzfaktoren. Letztlich würde eine 
Intelligenztheorie nicht belegt werden können ohne die Durchführung von 
Testverfahren. Sollten diese Testverfahren an sich methodisch fragwürdig sein, 
müsste bei objektiver Betrachtung festgestellt werden, dass Intelligenztheorien 
auf wackeligen Beinen stehen. 


2.3.1 Was ist Intelligenz: eine Übersicht 


„Ihere seem to be almost as many definitions of intelligence as there were experts 
asked to define it.“ (Sternberg, 1987, S. 376). 


Eine weite Definition von Intelligenz umfasst die akademische, praktische, so- 
ziale Intelligenz, Lernfähigkeit, Kreativität und komplexes Problemlösen (Bro- 
cke & Beauducel, 2001). Hinzu kommt die Emotionale Intelligenz (Goleman, 
2012) und die Künstliche Intelligenz (Legg & Hutter, 2007). In dieser Arbeit soll 
sich auf die engeren Definitionen von Intelligenz bezogen werden, die kognitive 
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Prozesse beinhalten. Eine Darstellung von allem, was im Zusammenhang mit 
der Intelligenzforschung diskutiert wurde und wird, sprengt den Rahmen dieser 
Untersuchung. Übersichtsarbeiten zur Thematik liegen vor von Funke und Va- 
terrodt (2009) und Lamberti (2006). 

Alfred Binet gilt als Erfinder des ersten Intelligenztests (Holling, Preckel & 
Vock, 2004). Dieser sollte die Frage klären, wie geistig behinderte Kinder zu 
unterrichten seien (Zimbardo, 1992, S. 441)!°. Ziel der Diagnostik mit Hilfe die- 
ses ersten Intelligenztests war es, objektiv die Gruppe kognitiv sehr schwacher 
Kinder zu identifizieren und diese Identifizierung nicht dem subjektiven Urteil 
der Lehrkräfte zu überlassen. Somit wurde angenommen, dass ein Test den ko- 
gnitiven Stand eines Kinds besser erfassen kann als das LehrerInnenurteil. Be- 
lege, dass diese Annahme begründet ist, liegen vielfach vor. Berühmt ist z.B. 
das Experiment von Robert Ulshöfer, der Ende der 40er Jahre einen einzigen 
Abituraufsatz 42 Lehrkräften zur Benotung vorlegte. Die Urteile in Form von 
Schulnoten verteilten sich von der Note 1-6 (Kahl, 2006). Dieses Experiment 
wurde 1981 von Gottfried Schröter (1981) repliziert. Die Untersuchung der No- 
tenvergabe durch 11000 Lehrkräfte ergab ein ähnliches Ergebnis. Eine Über- 
sicht über die Subjektivität von LehrerInnenurteilen liefern z.B. Brügelmann 
(2006), Dalbert (2013) oder Zaborowski, Meier und Breidenstein (2011). 

Das kurze Eingehen auf die Subjektivität von LehrerInnenurteilen sei damit 
begründet, dass Intelligenztests gerade auch im sonderpädagogischen Kontext 
eingesetzt und legitimiert werden, um der Subjektivität entgegenzuwirken. 

In dem Test von Binet, den er zusammen mit seinem Kollegen Theophile 
Simon entwickelte, werden Kindern Testaufgaben vorgelegt, die im Schwierig- 
keitsgrad ansteigen, ein typisches Merkmal auch heutiger Intelligenztests. Es 
wurde für die Normierung das durchschnittliche Ergebnis von Kindern ver- 
schiedener Altersstufen erfasst. Das Ergebnis des getesteten Kinds wurde dann 
verglichen mit diesen Durchschnittswerten und dementsprechend erhielt das 
getestete Kind ein Intelligenzalter, je nachdem, welcher Altersgruppe das Test- 
ergebnis entsprach. Das Berechnen eines Intelligenzalters verlor durch das Be- 
rechnen eines Intelligenzquotienten (Stern, 1914) an Bedeutung, welches das 
Verhältnis des Intelligenzalters zum Lebensalter darstellt (IQ = Intelligenzalter/ 
Lebensalter x 100). Doch gerade bei der Präsentation von Testergebnissen ge- 
genüber Sorgeberechtigten wird wieder häufig das Intelligenzalter als Beschrei- 
bung für Testergebnisse genutzt, welches nun Referenzalter oder Äquivalenz- 
alter genannt wird. Viele der neuaufgelegten Testverfahren (z.B. WISC-IV, 


10 Bereits an dieser Stelle würden KritikerInnen einwenden, dass Diagnostik neutral ist und 
die daraus resultierenden pädagogischen Ableitungen erst einmal nichts mit den diagnos- 
tischen Befunden zu tun haben und sich mit dieser auch nicht begründen lassen (Schlee, 
2008), sondern mit (pädagogischen) Idealen, Normvorstellungen und Werten, z.B. über 
eine gute Beschulung, eine gute Pädagogik etc. 
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KABC-II) bieten im Anhang der Manuale Tabellen zum schnellen Errechnen 
des Referenz- bzw. Äquivalenzalters. In den Verfahren der SON-Reihe wird das 
Referenzalter gar in der Computerauswertung immer mit angegeben. 
Theoretische Grundlage des Binet-Simon-Tests war die Annahme, Intelli- 
genz zeige sich in komplexen Denkvorgängen wie z.B. Urteilsfähigkeit und An- 
passungsfähigkeit. Es wurden verbale, numerische und räumliche Aufgaben 
vorgegeben (Kramer, 2009, S. 20). Der Test beruhte auf den Kriterien, dass er in 
der Anwendung standardisiert und die Schwierigkeitsanordnung der Aufgaben 
empirisch geprüft ist, die Validität und Reliabilität als Gütekriterien vorausge- 
setzt sind und die Stichprobe von Verhaltensweisen nicht in separate Teilfähig- 
keiten zergliedert, sondern zur allgemeinen Intelligenz vereinigt werden (Spe- 
ckemeier, 2011, S. 93). Das Testverfahren dieser „Urväter der Testpsychologie“ 
(ebd., S. 94) wurde in revidierten Fassungen noch Jahrzehnte angewendet. 
Spearman (1904) beschrieb die Allgemeine Intelligenz mit dem Generalfak- 
tor g. Demnach ist ein allgemeiner Intelligenzfaktor g maßgeblich beteiligt an 
allen kognitiven Fähigkeiten. Daraus resultiert, dass eine Person mit einem ho- 
hen Intelligenzfaktor g praktisch in allen kognitiven Teilbereichen hohe Werte 
erzielen würde. Dies widerspricht konsequent zu Ende gedacht dem Stereotyp 
vom zerstreuten Professor, der in seinem Fach zwar nobelpreisverdächtig 
agiert, aber ansonsten völlig schusselig nicht in der Lage wäre, sich ein Spiegelei 
zu braten. Tatsächlich müsste bei Vorliegen eines allgemeinen Intelligenzfak- 
tors angenommen werden, dass der Professor auch gute Strategien beim Ko- 
chen entwickeln müsste (Anpassungsfähigkeit im Umgang mit den räumlichen 
Gegebenheiten, beim sinnvollen Arbeiten mit den Kochwerkzeugen, beim di- 
vergenten Umgang mit den Zutaten, beim Erstellen eines Zeitplans, beim Ler- 
nen aus vorher gemachten Erfahrungen, z.B. Essen falsch gewürzt usw.)''. Wer 
also über eine hohe Grundintelligenz verfügt, dargestellt durch den Generalfak- 
tor g, kann auf sein gutes intellektuelles Potential in allen Bereichen des Lebens 
zurückgreifen, z.B. beim Lernen einer Sprache, beim Rechnen, beim logischen 
Denken usw. Die allgemeine Intelligenz g kann besser als IQ dargestellt werden 
als das Postulieren verschiedener unabhängiger Intelligenzen, die gleichberech- 
tigt nebeneinander existieren. Diese müssten eigentlich mit mehreren IQs dar- 
gestellt werden, da es sich nicht um ein hierarchisches Modell wie bei Spearman 
handelt. Thurstone (1938) postulierte ein nicht-hierarchisches Modell der Intel- 
ligenz in Form von gleich bedeutsamen Primärfaktoren, die nicht abhängig von 
einem Generalfaktor sind (Holling, Preckel & Vock, 2004; Kramer, 2009): ver- 
bales Verständnis, Wortflüssigkeit, schlussfolgerndes Denken, räumliches Vorstel- 


11 Tatsächlich entspricht das Stereotyp vom zerstreuten Professor wohl eher dem Konzept 
von Savants: Teilleistungsbegabte oder Inselbegabte, die teils Symptome aus dem autisti- 
schen Spektrum zeigen. 
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lungsvermögen, Merkfähigkeit, Rechenfähigkeit und Wahrnehmungsgeschwin- 
digkeit. Bei Betrachtung aktueller Testverfahren, die im sonderpädagogischen 
Bereich eingesetzt werden, kommen die Primärfaktoren bekannt vor, denn di- 
verse Subtests der Testbatterien testen diese Primärfaktoren, auch wenn sich 
nicht ausdrücklich auf Thurstone berufen wird. Schlussfolgerndes Denken kommt 
in Form von Matrizentests in fast jedem Test vor, Rechenfähigkeit in der IDS 
und im WISC-IV, Wahrnehmungsgeschwindigkeit in Form von Speed-Tests in 
fast jeder Testbatterie, Rotationstests (räumliches Vorstellungsvermögen) z.B. in 
der KABC-II und im WISC-IV. Obwohl er zunächst die Primärfaktoren als un- 
korreliert ansah (Kramer, 2009, S. 21), ging er später doch von einer Korrelation 
aus und nahm an, dass ein Generalfaktor höherer Ordnung extrahiert werden 
könne. Der Wilde-Intelligenztest (Jäger & Althoff, 1983) und ältere Formen des 
Intelligenz-Struktur-Tests (Amthauer, 1953, 1973) berufen sich auf Thurstones 
Annahmen über die Intelligenz (Kramer, 2009, S. 21). 

Mit Stern zeigten sich erste Ansätze, die das Zusammenwirken von Anlage 
und Umwelt thematisieren, z.B. die Anpassungsfähigkeit des Individuums auch 
unter verschiedensten Bedingungen und auf verschiedensten Gebieten (Stern, 
1912, S. 4). Stern definiert die Intelligenz als „die allgemeine Fähigkeit eines In- 
dividuums, sein Denken bewusst auf neue Forderungen einzustellen; sie ist all- 
gemeine geistige Anpassungsfähigkeit an neue Aufgaben und Bedingungen des 
Lebens“ (1912, S. 3). 

Der von Stern eingeführte Begriff Intelligenzquotient erhielt seinen auch 
heute noch verwendeten Namen durch Wechsler, der den Intelligenzquotient 
(IQ) als Abweichungsquotienten einführte (Wechsler, 1958). Wechsler betrach- 
tete die Hypothese von Stern und Binet bei der Berechnung der Testergebnisse 
in Form von Intelligenzalter und Intelligenzquotient als problematisch, da die 
Beziehung zwischen Intelligenz und Alter nicht linear sei (Speckemeier, 2011, 
S. 95). Er schlug den IQ als Abweichungsquotienten vor, der auch Vergleiche 
im Alter zulässt (ebd., S. 95; Amelang & Bartussek, 1990, S. 181). Die Bezeich- 
nung IQ als Größe für die Intelligenz einer Person erhält damit auch heute 
noch eine große Bedeutung, weil er sich unabhängig vom biologischen Alter ei- 
ner Person als feste Größe darstellt. Somit sind 70-Jährige mit 20-Jährigen ver- 
gleichbar. Die Testverfahren aus der Wechsler-Reihe (z.B. Wechsler-Bellevue; 
HAWIK-R; HAWIK-II, HAWIK/WISC-IV; WNV)” berufen sich in den Be- 


12 Wechsler-Bellevue: Wechsler Bellevue Intelligence Scale (Wechsler, 1939). 
HAWIK-R: Hamburg-Wechsler-Intelligenztest für Kinder-Revision 1983 (Tewes, 1983). 
HAWIK-II: Hamburg-Wechsler-Intelligenztest für Kinder (Tewes, Rossmann & Schall- 
berger, 1999). 
HAWIK/WISC-IV: Hamburg-Wechsler-Intelligenztest für Kinder-IV (Petermann & Pe- 
termann, 2007). 
WNV: Wechsler Nonverbal Scale of Ability (Petermann, 2014). 
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gründungen auf die theoretischen Überlegungen zur Intelligenz von Raymond 
Cattell. Cattell (ein Schüler Spearmans) postulierte, dass Intelligenz aus zwei 
allgemeinen Faktoren bestehe, der fluiden und der kristallinen Intelligenz (Cat- 
tell, 1957). Fluide Intelligenz beschreibt die kognitiven Fähigkeiten, deren Vor- 
liegen eher genetisch bedingt angenommen werden und mit dem intellektuellen 
Potential einer Person umschrieben werden kann. Während die Ausprägung 
der fluiden Intelligenz überwiegend genetisch erklärt wird, soll die eher um- 
weltbedingte kristalline Intelligenz die Summe von Lernerfahrungen sein. Dabei 
wird angenommen, dass Lernerfahrungen sich eher kumulieren und heraus- 
kristallisieren, je mehr man das intellektuelle Potential in Form der fluiden In- 
telligenz nutzt und dieses in die kristalline Intelligenz investiert, weshalb dieser 
Ansatz in der Intelligenzforschung auch Investmenttheorie (Cattell, 1963) ge- 
nannt wird. Rindermann, Flores-Mendoza und Mansur-Alves (2010) setzen 
sich kritisch mit dieser Theorie auseinander. 

Entsprechend dieses Ansatzes erklärt sich auch, dass z.B. im Intelligenztest 
HAWIK-IV reine Wissensaufgaben vorkommen wie folgende: Woraus bestehen 
Diamanten? (richtige Antwort z.B.: Kohlenstoff/Karbon; falsche Antwort z. B.: 
Kohle) (Petermann & Petermann, 2007, S. 327). Nach der Theorie Cattells und 
der Anwendung dieser Theorie im HAWIK-IV müsste also angenommen wer- 
den, dass ein Kind sein intellektuelles Potential (fluide Intelligenz) investiert ha- 
ben sollte, um sich damit zu beschäftigen, woraus Diamanten bestehen (Folge 
der Kenntnis: kristalline Intelligenz). Obwohl die Theorie umstritten ist und die 
Grundannahmen bezweifelt werden (Horn, 1998, zitiert nach Johnson & Bou- 
chard, 2005; Holling et al., 2004), dient die Erklärung der Intelligenz nach Cat- 
tell, erweitert und modifiziert von Horn und Carroll vielen Intelligenztests, die 
in der Sonderpädagogik eingesetzt werden, als Grundlage und wird mit dem 
CHC-Modell beschrieben: Cattell-Horn-Carroll Modell. 

Guilford (1967) beschreibt mit dem Strukturmodell der Intelligenz 120 in- 
tellektuelle Fähigkeiten. Drei Faktoren der Intelligenz (Inhalt, Produkt/Form, 
Operation) bestimmen dabei die jeweilige intellektuelle Fähigkeit. Dieses Mo- 
dell als Analogie zur Tafel der Elemente (Zimbardo, 1992, S. 447) diente als 
Grundlage für die Forschung verschiedenster kognitiver Fähigkeiten, ist aber 
zumindest in Teilaspekten schlecht empirisch belegt (Kramer, 2009, S. 23) und 
sei an dieser Stelle der Vollständigkeit halber erwähnt. 

Als theoretische Grundlage für die Konstruktion von Intelligenztests, die 
in der deutschen Sonderpädagogik eingesetzt werden, finden weder Struktur- 
modelle wie das nach Guilford, noch Intelligenzmodelle mit starker Berück- 
sichtigung der kulturellen Hintergründe, noch theoriegeleitete Modelle von In- 
telligenz Verwendung. Letztere, weil hier der Beleg über psychometrische Ver- 
fahren abgelehnt wird. Bedeutsame Intelligenzmodelle nach diesen Ansätzen 
sollen an dieser Stelle erwähnt werden, für eine tiefergehende Beschäftigung 
wird angesichts der Fragestellung auf weiterführende Literatur verwiesen, z.B. 
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von Sternberg und Detterman (1986), Funke und Vaterrodt (2009) und Lam- 
berti (2006). 

Einen wichtigen Beitrag in der Intelligenzforschung wird den Ansätzen von 
Gardner, Sternberg und Jäger attestiert, so dass diese hier kurz beschrieben 
werden. 

Gardner (1983) betrachtet Intelligenz im kulturellen Kontext. In westlichen 
Gesellschaften wird z.B. mehr Wert auf linguistisch und logisch-mathematische 
Fähigkeiten gelegt. Gardner beschreibt sieben Arten von Intelligenz. Auf Bali 
wäre dementsprechend die körperlich-kinästhetische Fähigkeit (Fertigkeiten der 
motorischen Bewegung und Koordination) von Bedeutung (Zimbardo, 1992, 
S. 448). Eine Testung über ein psychometrisches Verfahren wird abgelehnt, um 
eine Einschätzung über eines oder mehrere der sieben Intelligenzen zu erhalten. 
Gardner postuliert neben den oben erwähnten Intelligenzen räumliches Vorstel- 
lungsvermögen, musikalische Fähigkeit, interpersonale Fähigkeit (Verstehen an- 
derer) und die intrapersonale Fähigkeit (Verstehen des Selbst). Auch wenn im 
Kontext dieser Arbeit dieser Ansatz zur Definition von Intelligenz wenig be- 
deutsam ist, stellt sich die Frage, ob nicht in der Tat der kulturelle Hintergrund 
bei der Testung im sonderpädagogischen Kontext mehr beachtet werden sollte. 
Die Schaffung kultur- und sprachfairer Testverfahren ist ein berechtigtes Anlie- 
gen, welches vielfach versucht wurde zu lösen. So sind die aus überwiegend 
abstrakten Symbolen bestehenden Aufgaben aus der CFT-Reihe der Versuch, 
kulturelle Hintergründe nicht in ein Testergebnis einfließen zu lassen. Der CFT 
heißt ausgesprochen Culture Fair Intelligence Test. Die Testverfahren aus der 
SON-Reihe (Snijders-Oomen non-verbaler Intelligenztest) sind der Versuch ei- 
ner Intelligenztestung gänzlich ohne Worte (auch die TestleiterIn muss nicht 
sprechen, die Anweisungen können pantomimisch-gestisch erläutert werden). 
Angesichts der steigenden Zahl von in Deutschland aufgenommenen geflüchte- 
ten Kindern bleibt die Frage nach einer Berücksichtigung des kulturellen Hin- 
tergrunds des zu testenden Kinds berechtigt. Es kann also diskutiert werden, ob 
Ansätze nach Berücksichtigung des jeweils kulturellen Hintergrunds bei der Be- 
stimmung von Intelligenz wie der nach Gardner an Aktualität gewonnen ha- 
ben. 

Die meisten Intelligenzmodelle gehen davon aus, dass Intelligenz ein vor- 
handenes Maß an kognitiven Fähigkeiten (und je nach Modell auch Fertig- 
keiten) darstellt, welches abgerufen werden kann. Von dieser Vorstellung aus- 
gehend müssen also Verfahren entwickelt werden, die dieses individuelle Maß 
abrufen können, z.B. mit einem Intelligenztest. Sternberg (1985, 1986) ver- 
sucht, die Intelligenz als einen Weg zu einem Ziel zu beschreiben, nicht als die 
feststehende kognitive Kompetenz, die zu einem Ziel führen muss, wenn man 
intelligent genug sei. 

Intelligenz besteht nach Sternberg aus drei fundamentalen Aspekten: analy- 
tische, kreative und praktische Intelligenz (Sternberg, 1985). Differenzierter be- 
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schreibt Zimbardo (1992) die Intelligenz-Triade mit komponentenbezogener, 
erfahrungsbezogener und kontextabhängiger Intelligenz (ebd., S. 448). Die kom- 
ponentenbezogene Intelligenz ist psychometrisch erfassbar und untersucht ko- 
gnitive Prozesse auf dem Weg zu einer Lösung, z.B. eines Items in einem IQ- 
Test. Nicht erfassbar mit psychometrischen Verfahren ist die erfahrungsbezogene 
Intelligenz, die das innere Erleben einer Person im Zusammenhang mit der 
Umwelt beschreibt. In diesem Zusammenhang ergibt sich die Frage danach, wie 
Intelligenz Erfahrungen beeinflusst. 

Ebenfalls nicht psychometrisch erfassbar ist die kontextabhängige Intelli- 
genz, die beschreibt, wie eine Person die Umwelt beeinflusst, z.B. ob vorhande- 
ne Gegebenheiten optimal und klug genutzt werden, ob eine Person also den 
Kontext der Umwelt erfasst und sinnvoll nutzt. Nach Sternbergs Ansatz ist es 
durchaus möglich, dass eine Person in einem Intelligenztest ein schwaches oder 
gar sehr schwaches Resultat erzielt, aber durch eine sinnvolle Integration von 
Umwelterfahrungen und eine sinnvolle Beeinflussung der Umwelt durch Be- 
rücksichtigung des Umwelt-Kontextes sehr gut zurecht kommt”. Ausgehend von 
diesem Intelligenzmodell könnte sich die gelegentlich von SonderpädagoglIn- 
nen empfundene Diskrepanz erklären zwischen den Testergebnissen aus Intel- 
ligenztests und dem guten Zurechtkommen im Schulalltag, in den sozialen Be- 
ziehungen, bei der Lösung von Problemen und auch beim kreativen Umgang 
mit Etwas, denn das Konstrukt Kreativität beinhalt Sternbergs Intelligenz- 
Triade. 

Das Berliner Intelligenzstruktur Modell nach Jäger (1982, 1984) resultiert 
aus der Auseinandersetzung mit 2000 Items aus Intelligenztests (Jäger, Süß & 
Beauducel 1997a). Diese konnten zu 191 Blöcken mit 98 Aufgabentypen extra- 
hiert werden. Aus der anschließenden Analyse der Struktur erkannte Jäger vier 
operative Fähigkeiten: Bearbeitungsgeschwindigkeit, Merkfähigkeit, Einfallsreich- 
tum (auch Kreativität) und Verarbeitungskapazität. Durch eine Kreuzklassifika- 
tion (Speckemeier, 2011, S. 107) konnten die inhaltsgebundenen Fähigkeiten 
sprachgebundenes, zahlengebundenes und anschauungsgebundenes (figural-bild- 
haftes) Denken nachgewiesen werden. Es wird auch in dieser Intelligenztheorie 
ein übergeordneter Generalfaktor der Intelligenz angenommen. 

Die Leistung Jägers besteht darin, ein Aufgabenpool zu erstellen, welches für 
die bis dahin eingesetzten Intelligenzaufgaben in der Intelligenzforschung re- 
präsentativ ist. Aus diesem Aufgabenpool resultierte der Berliner Intelligenz- 
struktur-Test (Jäger, Süß & Beauducel, 1997b). Insgesamt gilt das Berliner In- 
telligenzstruktur-Modell als empirisch gut bewährt (Brocke & Beauducel, 2001). 


13 Umgangssprachlich (und auch diskriminierend gegenüber LandwirtInnen) wird diese 
Kombination (niedriger IQ, dennoch lebenspraktisch agierend) manchmal abwertend 
mit Bauernschläue umschrieben. 
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2.3.2 Intelligenzmodelle im sonderpädagogischen Kontext 


Bei der Konstruktion eines Intelligenztests ist das Erfinden von Testaufgaben 
sicherlich der einfachste und erfreulichste Teilschritt. Jede/Jeder hat eine Vor- 
stellung davon, mit welchen Items Intelligenz getestet werden könnte. Aufwen- 
dig wird im Anschluss die Prüfung, ob diese Items auch tatsächlich Intelligenz 
testen oder nicht, erschwert zudem durch den Mangel, dass es kein State of the 
Art bezüglich der Definition von Intelligenz gibt. Noch aufwändiger wird die 
Durchführung statistischer Verfahren, mit deren Hilfe Gütekriterien die Quali- 
tät des Tests insgesamt belegen. Am aufwändigsten ist aber sicherlich die sich 
anschließende Normierung des Tests mit Hilfe einer Normstichprobe, die aus 
einer ProbandInnenzahl mindestens im vierstelligen Bereich (bzw. je Alters- 
gruppe mindestens 30 ProbandInnen) bestehen sollte und die auch den oft er- 
staunlich hohen Kaufpreis der Tests begründet. Es kann ausgeschlossen wer- 
den, dass dies alles ohne eine theoretische Vorstellung von dem gelingt, was 
Intelligenz sein soll. Ideal ist natürlich, auf ein selbst erstelltes theoretisches und 
am besten auch gut belegtes Konzept über Intelligenz zugreifen zu können bei 
der Konstruktion eines Tests wie z.B. bei Cattell mit dem daraus entwickelten 
CFT oder wie bei Jäger mit dem daraus entwickelten Berliner-Intelligenzstruk- 
tur-Test. Doch ist es untypisch bei den in der Sonderpädagogik eingesetzten In- 
telligenztests, dass die AutorInnen auf eigene Konzeptionen bezüglich dessen, 
was Intelligenz sein soll, zugreifen. Während im vorherigen Kapitel die Meilen- 
steine der Intelligenzforschung vorgestellt worden sind, ohne weitestgehende 
konkrete Bezüge zu aktuell durchgeführten Intelligenztests herzustellen, die in 
der Sonderpädagogik gebräuchlich sind, sollen nun die konkreten Intelligenz- 
theorien dargestellt werden, auf die sich die in der Sonderpädagogik verwende- 
ten Intelligenztests beziehen. 

Die Definition für einen psychologischen Test orientiert sich an Moosbrug- 
ger & Kelava (2007, S. 2), die einen Test als ein wissenschaftliches Routinever- 
fahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologi- 
scher Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage 
über den Grad der individuellen Merkmalsausprägung definieren. 


2.3.2.1 Lurija-Modell 


Neben der Idee, Intelligenz mit Hilfe von auf Faktorenanalysen begründeten 
psychometrischen Verfahren testen zu wollen, gibt es auch den kognitionspsy- 
chologischen Ansatz, Intelligenz zu testen (Maltby, Day & Macaskill, 2011). 
Biologische und physiologische Unterschiede werden hier in Verbindung mit 
Intelligenz gebracht. Eine Idee ist z.B. die Annahme über eine positive Korrela- 
tion zwischen Gehirngröße und Intelligenz(testergebnissen). Durch entspre- 
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chende Korrelationsstudien konnte diese ursprünglich von Tiedemann (1836) 
postulierte Annahme später bestätigt werden (Willerman et al., 1991; McDa- 
niel, 2005)'. Einen ebenfalls biologisch-physiologischen Ansatz verfolgte Jen- 
sen (1998). Die Bewältigung kognitiver Aufgaben benötigt unterschiedliche Be- 
arbeitungszeiten, deren Länge mit Intelligenz in Verbindung gebracht wird. So 
nimmt er z.B. an, dass die über ein evoziertes Potenzial gemessene Verarbei- 
tungszeit (erkennbar über ein Spitzenpotenzial im EEG) mit Intelligenz in Ver- 
bindung steht, eine kürzere Verarbeitungszeit bedeutete eine höhere Intelli- 
genz. Jensen vermutet generell eine bessere Messbarkeit der Intelligenz über 
kurze und einfache kognitive Aufgaben (z.B. die Geschwindigkeit, mit der au- 
ditive oder visuelle Reize erkannt werden), bei denen Wissen, Schlussfolgern 
und Problemlösungstechniken nicht im Vordergrund stehen wie bei herkömm- 
lichen Intelligenztests (Maltby et al., 2011, S. 553). 

Maltby et al. (2011) beschreibt einen wichtigen kognitionspsychologischen 
Ansatz mit den Arbeiten von Lurija (1902-1977). Alexander Romanowitsch 
Lurija'® (1970) entwickelte eine „Karte der Systeme und Funktionen des Ge- 
hirns, die für komplexe Verhaltensprozesse verantwortlich sind“ (Melchers & 
Melchers, 2015, S. 43). Diese Einteilung des Gehirns in drei Blöcke, die für 
unterschiedliche Prozesse verantwortlich gemacht werden im Zusammenhang 
mit dem Abruf von intellektuellen Fähigkeiten, dienten dem Ehepaar Nadeen 
und Alan Kaufman u.a. als theoretische Grundlage bei der Konstruktion der 
K-ABC und der KABC-I. 

Lurija war Psychologe, der sein Psychologie- und Medizinstudium sowie sein 
Studium der Gesellschaftswissenschaften bereits mit 16 Jahren an der 800 Kilo- 
meter östlich von Moskau gelegenen Universität von Kazan begann. Seinen 
Universitätsabschluss erzielte er mit 19 Jahren, somit als Teenager. Zusammen 
mit Lew Vygotskij und Alexej Leont’ev begründete er die Kulturhistorische 
Schule, die ein Zusammenwirken von physischer Entwicklung und sensori- 
schen Mechanismen mit kulturellen Faktoren zur Hervorbringung psychologi- 
scher Prozesse und Funktionen (einschließlich der Intelligenz) bei Erwachsenen 
(Maltby et al., 2011, S. 554) untersucht. Im Gegensatz zu Tieren sind Menschen 
in der Lage, sich nicht nur an die Umgebung anzupassen, sondern sich ver- 
schiedene Fertigkeiten anzueignen, die dann zu Verinnerlichungen führen und 
Kognitionen steuern können. Im Zusammenhang dieser Studie sind seine Un- 
tersuchungen zur Messung von Denkprozessen interessant. Lurija fand z.B. 
heraus, dass die Bearbeitungszeit eines Items bei inneren emotionalen Konflik- 


14 Konsequent - und unter Ausblendung von Assoziationen zu der Rassenlehre im 3. Reich - 
zu Ende gedacht resultiert daraus ein höheres intellektuelles Potenzial für größere Men- 
schen, auf den Punkt gebracht von McDaniel (2005) mit folgender Artikelüberschrift: Big 
brained people are smarter. 

15 Gelegentlich auch Luria geschrieben. 
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ten verlängert ist und entwickelte zur Messung die gekoppelte motorische Me- 
thode (Lurija, 1932). Auf Grund dieser Beobachtungen wurde später der Poly- 
graf (Lügendetektor) entwickelt (Maltby et al., 2011, S. 553). 

Die Ideen von Lurija, Vygotskij und Leont’ev sowie die Aufsätze zu dem 
Wirken dieser Forschergruppe sind sehr differenziert, auch durch die Ableh- 
nung von Vereinfachungen komplexer Sachverhalte. Veranschaulichungen über 
Schematisierungen werden als unzulässig reduktionistisch verworfen, gezielt 
anti-reduktionistische Positionen werden vertreten, z.B. ein Objekt niemals in 
seiner Statik, sondern seiner Entwicklung zu untersuchen (Jantzen, 2004). In 
diesem Zusammenhang ist interessant, dass Lurija nie einen standardisierten 
Test entwickelte, da die Einzigartigkeit des Menschen eine individuelle Anpas- 
sung erfordere (Maltby et al., 2011). Eine umfassendere Betrachtung von Luri- 
jas, Vygotsktijs und Leont’evs Wirken und zu der Kulturhistorischen Schule bie- 
tet Jantzen (2003, 2011), eingehendere Betrachtungen von Lurijas Theorien bie- 
tet er in seiner Veröffentlichung Human brain and psychological processes (1966). 

Aus der oben beschriebenen von Lurija angestrebten Entwicklung einer 
Karte der Systeme und Funktionen des Gehirns, welche für komplexe Verhal- 
tensprozesse verantwortlich sind, „insbesondere der auf hohem Funktions- 
niveau ablaufenden Prozesse, die mit der Aufnahme und der Integration von 
Informationen sowie mit Problemlösefähigkeiten assoziiert sind“ (Melchers & 
Melchers, 2014, S. 43), entstand die Idee eines funktionalen Systems, welches 
durch drei Blöcke veranschaulicht wird, die die basalen Funktionen des Gehirns 
zusammenfassen (ebd., S. 45): 

Der 1. Block, der mit dieser Terminologie wie auch die anderen Blöcke als 
veranschaulichende Bezeichnung für ein funktionales System betrachtet werden 
sollte, ordnet Lurija dem retikulären Aktivierungssystem (Medulla Oblangata) 
zu und ist im Wesentlichen für Wachheit und Aufmerksamkeit verantwortlich 
und eng verbunden mit dem 3. Block, da beide Blöcke sich mit der Gesamteffi- 
zienz der Hirnfunktionen beschäftigen (Melchers & Melchers, 2015, S. 43). Die- 
ser 3. Block lokalisiert sich in präfrontalen Anteilen des Frontallappens, in dem 
sich Handlungskonzepte und geplante Verhaltensweisen entwickeln. 

Hauptsächlich mit der Speicherung, Kodierung und Analyse von Informa- 
tionen wird der nahe der Rolandofurche befindliche 2. Block assoziiert. Viele 
Subtests der K-ABC und K-ABC-I beziehen sich auf die diesem 2. Block zuge- 
ordnete Verarbeitung von visuellen, auditiven, haptischen und kinästhetischen 
Stimuli. 

Im Sinne Lurijas soll auf eine schematische und somit reduktionistische 
Darstellung der drei Blöcke z.B. mit Hilfe eines Schaubilds mit definierten Auf- 
gabenstellungen definierter Hirnteile verzichtet werden, denn letztlich geht es 
um die komplexe Interaktion zwischen den von Lurija angenommenen Eigen- 
schaften der drei Blöcke, die erst menschliches Verhalten und das Abrufen 
von Fähigkeiten erklären. Dementsprechend wird mit der Konstruktion der 
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KABC-I (und der ehemaligen K-ABC) versucht, die Art und Weise zu ermit- 
teln, wie die den drei Blöcken zugeschriebenen Aspekte integriert sind und in- 
teragierend genutzt werden können. Eine weitere wichtige Annahme in Lurijas 
Modell ist die Annahme über zwei verschiedene Formen der Verarbeitung, der 
sukzessiven und der simultanen Verarbeitung (Lurija, 1966, S. 74). Diese Arten 
der Verarbeitung werden vor allem mit dem 2. Block in Verbindung gebracht, 
also mit der Integration, Speicherung und Kodierung von Sinneswahrnehmun- 
gen. So werden seriell präsentierte Stimuli wie Zahlenfolgen (z.B. 5-7-2-9) vom 
Kind mit Hilfe des Kurzzeitspeichers gemerkt und wiederholt. Es folgt ein Item 
nach dem anderen, welches also nach und nach (sukzessiv) bzw. sequentiell 
(Terminologie der KABC-I) bearbeitet wird. Die Skala Simultan der KABC-U 
hingegen präsentiert dem Kind Items, die integrativ und unter Berücksichtigung 
komplexer Wahrnehmungen und unter Einbezug mehrerer Aspekte simultan 
bearbeitet werden müssen. In der der KABC-I vorangegangenen K-ABC wurden 
diese beiden Skalen noch einzelheitliches und ganzheitliches Denken genannt". 


2.3.2.2 Kramer-Modell in Anlehnung an den Binet-Simon-Test 


Obwohl in der Differentiellen Psychologie bereits Galton (1869) Versuche un- 
ternahm, mit Hilfe von systematischen Prüfverfahren Unterschiede zwischen 
Menschen zu belegen und mit ihm der Testbegriff Einzug in die Psychologie 
hielt, und obwohl er auch viele aktuell noch gebräuchliche statistische Verfah- 
ren entwickelte, wird im Zusammenhang mit Intelligenztests die Binet-Simon- 
Skala (Binet & Simon, 1905) als erster wirklicher Intelligenztest im heutigen 
Sinne betrachtet. Daran ändert auch nicht die von James McKeen Cattell publi- 
zierte erste Testbatterie 1890 mit sensorischen, motorischen und teils kogniti- 
ven Aufgaben (Lamberti, 2006, S. 13). 

Alfred Binet (1857-1911) studierte nach einem Jurastudium Medizin und 
Biologie. Seine Promotion beschäftigte sich mit dem Nervensystem von Insek- 
ten (Funke, 2006). Er gründete ein psycho-physiologisches Laboratorium sowie 
eine psychologische Fachzeitschrift, die er bis zu seinem Tod durch einen Hirn- 
tumor 1911 leitete (Funke, 2006, S. 25). Er ist Verfasser von rund 300 Facharti- 
keln. Zusammen mit Théodore Simon, den Binet ursprünglich als studentischen 
Mitarbeiter aufnahm, entwickelte er 1905 einen Intelligenztest im Auftrag des 
französischen Erziehungsministeriums’”. Intelligenz als wichtigstes Kriterium 


16 Man nahm an, dass die Gedanken Lurijas nicht sehr verbreitet sind und hatte sich dann 
für diese eingedeutschten Begriffe entschieden. Inzwischen wird davon ausgegangen, dass 
die Begriffe sukzessive bzw. sequentielle und simultane Verarbeitung bekannter sind. 

17 Eine von Piaget später entwickelte Affinität für das Erfassen von Leistungen soll übrigens 
auf die Beschäftigung Piagets mit Simon zurückgehen (Funke, 2006, S. 26). 
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für Prognosen bezüglich zukünftiger Schulerfolge wurden zunächst angenom- 
men, bekanntlich in späteren Jahren bestätigt (Gottfredson, 2002). Folgende 
Kriterien waren wichtig für die Entwicklung des Tests (Groffmann, 1983): 


e Standardisierte Durchführung und Auswertung, 

e empirische Itemprüfung nach Schwierigkeitsgrad, 

e Voraussetzung von Validität und Reliabilität, 

e keine Aufteilung in Teilfähigkeiten, sondern die Postulierung einer allge- 
meinen Intelligenz. 


Binet nahm bereits hier einen Generalfaktor der Intelligenz an, der später mit g 
bezeichnet werden wird. Er nahm weiter an, dass die Intelligenz hierarchisch in 
einer Stufenleiter der Intelligenz aufgebaut ist (échelle métrique de intelligence, 
Speckemeier, 2011, S. 93). Dies entspräche den späteren speziellen Faktoren, die 
dem Generalfaktor untergeordnet sind. Die Konstruktion des Fragebogenkata- 
logs beinhaltete ein Ansteigen des Schwierigkeitsgrads der Fragen. Nach Aus- 
wertung der Fragen kamen Binet und Simon der Antwort näher, ob das Kind 
„gut urteilen, gut verstehen und gut denken könne“ (Amelang & Bartussek, 
1994, S. 177), welches die Grundannahme über die Definition von Intelligenz 
neben dem Vorliegen eines allgemeinen Intelligenzfaktors nach Binet und Si- 
mon ist. In modifizierten Skalen wurde später versucht, kritische Einwände zu 
berücksichtigen, z.B. den großen Zeitaufwand bei der Durchführung, Mängel 
in der Durchführungsobjektivität und die Vernachlässigung von Intelligenz- 
strukturen (Speckemeier, 2011, S. 94). Der von Stern eingeführte Intelligenz- 
quotient, der damals noch kein Abweichungsquotient war (dies wurde erst spä- 
ter von Wechsler in der heute gebräuchlichen Form vorgeschlagen), sondern 
der Quotient von Intelligenzalter und Lebensalter, wurde übernommen. 

Der Test von Binet und Simon fand starke Beachtung und verbreitete sich 
weltweit in den unterschiedlichen Staaten oder in den besonderen Bedürfnissen 
der Kinder entsprechenden revidierten Fassungen, wie z.B. das Binetarium von 
Norden (1956), der Binet-Test für Blinde von Strehle (1961) oder der Kramer 
Intelligenz-Test (Kramer, 1972). 

Josefine Kramer ist eine in der Bodenseeregion geborene Heilpädagogin, die 
später die Schweizer Staatsbürgerschaft annahm. Sie gilt als eine der „hochge- 
schätzten Heilpädagogen“ (Berger, 2014, S. 24), die aus einer kinderreichen Fa- 
milie stammte und in eher ärmlichen Verhältnissen aufwuchs. Sie beschäftigte 
sich mit sprachauffälligen Kindern (insbesondere mit dem Sigmatismus) und 
leitete mehrere Jahre eine Erziehungsberatungsstelle. Unter anderem auch in 
Würdigung ihrer langjährigen psychodiagnostischen Tätigkeit erhielt sie 1963 
als erste Frau von der Philosophischen Fakultät der Universität Fribourg die 
Ehrendoktorwürde. Der von ihr entwickelte Kramer-Test (Kramer, 1972) ba- 
sierte auf dem Binet-Simon-Test. Zwischen der ersten Version, die noch Binet- 
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Simon-Kramer-Test'? hieß und der zuletzt erschienenen Version 1972 (ebd., 
1972) entwickelte sich der Kramer-Test zu einem der am häufigsten angewen- 
deten Testverfahren im deutschsprachigen Raum. 

In der vierten Auflage besteht der Test aus verbalen Items, einigen Hand- 
lungs- und einigen Zeichenaufgaben (Seidler-Brandner, 2002) und einem optio- 
nalen Labyrinth-Test nach Porteus (1965). Geeicht wurde der Test für Kinder 
von 3 bis 15 Jahren (N = 2719), Resultat ist ein Intelligenzquotient nach Stern 
(Quotient aus Intelligenzalter und Lebensalter). Dieser Stufentest beinhaltet für 
die Kleinkind-Altersstufen auch nichtsprachliche Aufgaben, Kinder der oberen 
Altersstufen führen vermehrt Denkaufgaben durch. Es gibt eine Kurzform, aber 
keine Gruppenform. Die Instruktionen werden wortwörtlich vorgelesen; evtl. 
dürfen sie ergänzt werden. Für diesen Fall gibt es genaue Hinweise, in welcher 
Form ergänzend die Subtests erläutert werden dürfen. In der Regel beginnt ein 
Kind in einer Altersstufe ein Jahr unter dem eigenen biologischen Alter. Es gibt 
Regeln, die den heute üblichen Abbruch- und Umkehrregeln entsprechen. Eine 
Faktorenanalyse ergab sechs Faktoren, von denen fünf wie folgt interpretiert 
worden sind: Klassifikation, Sprachverständnis, Reasoning, Umgang mit sprach- 
lich bezeichneten Inhalten, Erfassen der sprachlichen Struktur (Seidler-Brandler, 
2002, S. 182). Der Kramer-Test gilt somit als sprachlastig. Die angegebenen 
Gütekriterien sind zufriedenstellend. 

Auch nach seiner letzten Revision war der Kramer-Test noch Jahrzehnte im 
Einsatz (Castello & Nestler, 2003), obwohl „das darin enthaltene Stufenkonzept 
als überholt betrachtet werden muss, sprachliche Formulierungen und Abbil- 
dungen der Aufgabenstellungen nicht mehr dem Zeitgeist entsprechen und das 
gesamte Erscheinungsbild veraltet ist“ (Grob, Meyer & Arx, 2009). In der Tra- 
dition des Kramer-Test wollte eine Gruppe von Schweizer PsychologInnen die- 
sen überarbeiten und neu normieren. Den Anspruch der Gruppe, den über- 
arbeiteten Kramer-Test nicht mehr als Stufentest zu konstruieren, ergänzend 
psychomotorische, sprachliche, mathematische, motivationale und sozial-emo- 
tionale Aspekte zu erfassen, und das Arbeits-, Bild- und Spielmaterial attrakti- 
ver zu gestalten, stieß an seine Grenzen, so dass eine vollständige Überarbei- 
tung nahelag (Grob et al., 2009, S. 148). Eine Überarbeitung des Kramer-Test 
wurde verworfen, eine in der Tradition des Kramer-Test entwickelte Neukon- 
zeptionierung wurde angestrebt und mit der Intelligence and Development 
Scales 2009 veröffentlicht (Grob et al., 2009). 


18 In einer ganz frühen Fassung Binet-Simon-Bobertag-Kramer-Test, da der Kramer-Test 
nicht nur auf dem Test von Binet und Simon basierte, sondern auch auf Weiterentwick- 
lungen der im deutschsprachigen Raum adaptierten Fassungen des Binet-Simon-Tests, 
maßgeblich vorangetrieben von Bobertag (1928) und Norden (1953). 
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2.3.2.3 CHC-Modell 


Die in Deutschland von SonderpädagogInnen zur Erkennung sonderpädagogi- 
schen Förderbedarfs und in Facheinrichtungen wie z.B. Sozialpädiatrischen 
Zentren durchgeführten Intelligenztests basieren überwiegend auf dem CHC- 
Modell, so dass dieses Modell im Zusammenhang mit dieser Arbeit das bedeut- 
samste Intelligenzmodell darstellt. Mickley und Renner (2010) fordern gar auf 
Grundlage dieser Feststellung, dass auch im Sinne einer besseren Vergleichbar- 
keit zwischen den Testergebnissen die im deutschen Sprachraum angewendeten 
Testverfahren sich an dem CHC-Modell orientieren sollten. 

Aus der Zusammenführung verschiedener Intelligenzmodelle zu einem in- 
tegrierenden Modell resultiert das CHC-Modell, wobei CHC die Initialen der 
maßgeblich an diesem integrierenden Modell beteiligten Forscher sind: Ray- 
mond B. Cattell, John L. Horn und John B. Carroll. 

Raymond B. Cattell (1905-1998) war ein ursprünglich britischer, später US- 
amerikanischer Psychologe, der zunächst in Großbritannien arbeitete und lehr- 
te. Nach seiner Immigration in die USA 1937 lehrte er als Professor Psychologie 
und entwickelte auf Grundlage von Faktorenanalysen das Kristallin-Fluid Mo- 
dell der Intelligenz. Cattell sollte 1997 die Goldmedaille der American Psycho- 
logical Association (APA) für sein Lebenswerk erhalten (Knebel & Marquardt, 
2012, S. 97), die er ablehnte, um einer Beurteilung einer Untersuchungskom- 
mission der APA vorzubeugen, die sich mit Cattells eugenischen Ansichten be- 
schäftigte. Eugenische Ideen im Zusammenhang mit der Intelligenzforschung 
waren bedeutsam, denn wichtige IntelligenzforscherInnen waren Anhänger der 
Eugenik. Deshalb soll die Bedeutung der Eugenik im Zusammenhang mit der 
Intelligenzforschung genauer betrachtet werden. 


2.3.2.4 Exkurs: Eugenik und Intelligenzforschung 


Es ist nicht nachvollziehbar, dass die ethisch und politisch umstrittene eugeni- 
sche Bewegung nur am Rande - wenn überhaupt - im Zusammenhang mit der 
Geschichte der Intelligenzforschung Erwähnung findet. Die Befürchtung liegt 
nahe, dass nicht sein soll, was nicht erwähnt wird, ansonsten muss Ignoranz für 
die Vernachlässigung dieses Themas angenommen werden. Eine reflektierte 
Position zur Eugenik darf von TestanwenderInnen erwartet werden, denn die 
Anwendung von Intelligenztheorien und -tests, die auch unter Einbezug euge- 
nischer Gedanken und motiviert von eugenischen Vorstellungen erstellt wor- 
den sind, würde unreflektiert zur Übernahme entsprechender Positionen füh- 
ren können. So ist insbesondere der Vergleich von Gesamtwerten (Gesamt-IQs) 
zwischen Ethnien und/oder kulturellen Gruppen nur mit großer Vorsicht zu 
interpretieren. 
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Mit Absicht soll dieser Exkurs eingebettet werden in die Beschäftigung mit 
der CHC-Intelligenztheorie. Das CHC-Modell ist das derzeit bedeutsamste In- 
telligenzmodell und ist untrennbar mit R.B. Cattell verbunden, dessen For- 
schungen mit Eugenik in Verbindung gebracht werden (vgl. Haller & Nigge- 
schmidt, 2012; Kühl, 2014). 

Nach Maltby et al. (2011) hat Eugenik das Ziel, im Rahmen eines Selek- 
tionsprozesses in der menschlichen Fortpflanzung, Menschen mit erwünschten 
Eigenschaften hervorzubringen (z.B. mit einer höheren Intelligenz). Positive 
Eugenik ist hier die Förderung erwünschter Merkmale, z.B. die staatlich ge- 
lenkte Förderung der Geburtenzahl aus AkademikerInnenfamilien, da bei diesen 
eine höhere Intelligenz angenommen wird. Negative Eugenik ist das kontrol- 
lierte Senken der Fortpflanzungsrate bei Personen, die mit nicht erwünschten 
Merkmalen assoziiert sind, z.B. die Sterilisation von geistig behinderten Men- 
schen. In der Zeit des Dritten Reichs nahm die Eugenik und die damit im Zu- 
sammenhang zu nennende Euthanasie eine zentrale Rolle ein. Vor dieser Zeit 
formulierte Alfred Ploetz (1895) in Deutschland in seiner Schrift Die Tüchtig- 
keit unserer Rasse und der Schutz der Schwachen die konsequente Anwendung 
auf Grundlage der Eugenik: 


Stellt es sich heraus (...), daß das Neugeborene ein schwächliches oder mißgestalte- 
tes Kind ist, so wird ihm von dem Ärzte-Collegium, das über den Bürgerbrief der 
Gesellschaft entscheidet, ein sanfter Tod bereitet, sagen wir, durch eine kleine Dosis 
Morphium. Die Eltern, erzogen in strenger Achtung vor dem Wohle der Rasse, 
überlassen sich nicht lange rebellischen Gefühlen, sondern versuchen es frisch und 
fröhlich ein zweites Mal, wenn ihnen dies nach ihrem Zeugnis über Fortpflanzungs- 
fähigkeit erlaubt ist. (Ploetz, 1895, S. 144 f.) 


Eugenische Ansichten spiegelten sich in der ersten Hälfte des zwanzigsten Jahr- 
hunderts in vielen Gesetzen wider, z.B. in den Gesetzen zur Zwangssterilisation 
in den USA, Kanada, Schweden, Australien, Norwegen, Finnland, Dänemark 
und der Schweiz, insbesondere aber in Deutschland während der Zeit des Na- 
tionalsozialismus, z.B. im Gesetz zur Verhütung erbkranken Nachwuchses, abge- 
leitet aus einem 1922 erlassenen Gesetz in den USA, dem Model Eugenical Steri- 
lisation Law (Maltby et al., 2011). 

Cattell war lediglich ein Anhänger der Eugenik in einer Reihe eugenisch 
denkender Intelligenzforscher. Aufsätze zur Intelligenzforschung beginnen in 
der Regel mit einem historischen Überblick und beginnen hier häufig mit den 
Forschungen Sir Francis Galtons. Genau bei Galton hat auch die Eugenik sei- 
nen Ursprung, denn der Begriff wurde von ihm geprägt. Er ging von einer Ver- 
erbung der Intelligenz aus und nahm an, dass weniger intelligente Menschen 
sich stärker vermehren würden und somit die menschliche Rasse schwächen 
würden. Das Galton Institute in London hieß ursprünglich Eugenics Education 
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Society. Lewis Terman, zeitweilig Präsident der American Psychological Associa- 
tion, war Anhänger von Galtons Theorien und unterstellte hispano-indiani- 
schen, mexikanischen und afroamerikanischen Menschen per Zugehörigkeit zu 
der Ethnie eine geringere Intelligenz (Maltby et al., 2011, S. 651). 

Charles Spearman ist bekannt geworden durch seine Theorie des überge- 
ordneten Intelligenzfaktors g, auch er ein Anhänger eugenischer Ideen. Im Zu- 
sammenhang mit Studien zur Rassenforschung half er bei der Modifizierung 
von Intelligenztests zur Erforschung von „nichteuropäischen und primitiven 
Völkern“ (Kühl, 2014, S. 104). Cattell war ein Schüler Spearmans und entwi- 
ckelte Spearmans Theorien weiter in der Grundannahme eines übergeordneten 
Intelligenzfaktors. Cattell als Anhänger der Eugenik befürchtete, dass weniger 
intelligente Menschen überproportional viele Kinder bekämen (Cattell, 1936, 
S. 181), sein fight for our national intelligence begleitete er mit einer ausgespro- 
chenen Anerkennung der in Deutschland von den NationalsozialistInnen durch- 
geführten Rassenverbesserungsprogrammen (Cattell, 1936, S. 141), diese Aner- 
kennung revidierte er nach 1945 kaum (Knebel & Marquardt, 2012). Als Cattell 
von sich die Goldmedaille der APA ablehnte, um einer möglichen negativen 
Beurteilung einer Untersuchungskommission der APA vorzubeugen, wehrte er 
sich allerdings in einem Brief an die APA gegen Rassismusvorwürfe (Cattell, 
1997, 0.$.) heftig und führte unter anderem an, dass er mit der Entwicklung 
kultur- und sprachfairer (fluider) Tests gerade versucht hat, Chancengleichheit 
herzustellen. Vorwürfe auf Grundlage jahrzehntealter Aussagen („from materi- 
al that is sixty years old“) (ebd., o.S.), würden nicht im Kontext der damaligen 
Zeit betrachtet, seine Ansichten seien sinnentstellt und verdreht wiedergegeben: 
„Iheir presentation reeks with all the little tricks that journalists use. They have 
quoted loaded terms I have used and then surrounded them with ‚paraphrased‘ 
statements of my position.“ (ebd., 0.S.) Im Gegensatz zu Knebel und Mar- 
quardt, die keine wirkliche Distanzierung Cattells erkennen (2012), distanziert 
sich Cattell deutlich in dem offenen Brief von den Verbrechen Hitlers, indem er 
schreibt: „We must long remember the evil actions of Hitler lest we repeat the 
mistake of the German people who followed his utter lunacy to violate the most 
fundamental of human rights.“ (ebd., o. S.). Eine Distanzierung gegen die Ideen 
der Eugenik nimmt er nicht in dem offenen Brief vor. 

Die Reihe eugenisch denkender und im Rahmen der Intelligenzforschung 
als renommiert zu nennenden WissenschaftlerInnen' wird u.a. ergänzt durch 
Cyril Burt (dem Fälschung von empirischen Daten, die die Erblichkeit von 


19 In der Regel handelt es sich um männliche Intelligenzforscher, die eugenische Ideen pro- 
pagieren, so dass von eugenisch denkenden Intelligenzforschern gesprochen werden 
könnte. Doch zumindest muss an dieser Stelle Audrey Shuey genannt werden, deren Stu- 
dien (1966) zur intellektuellen Überlegenheit der US-Weiß-AmerikanerInnen gegenüber 
den US Schwarz-AmerikanerInnen oft zitiert werden. 
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Intelligenz belegen sollten, nach seinem Tod nachgewiesen werden konnte), 
Arthur Jensen oder einem der berühmtesten Psychologen überhaupt, Hans Jür- 
gen Eysenck (Knebel & Marquardt, 2012, S. 98; Kühl, 2014). 

Die Eugenik wird zuweilen als unrühmlicher Abschnitt in der Psychologie 
dargestellt, z.B. von Maltby et al. (2011, S. 650). Dies unterstellt aber ein abge- 
schlossenes Kapitel, so wie die unrühmliche Zeit des Nationalsozialismus oder 
die unrühmliche Anwendung der Lobotomie. Es ist jedoch zweifelhaft, ob eu- 
genische Ideen tatsächlich lediglich ein Kapitel darstellen. Das Wort Eugenik 
findet praktisch keine Verwendung mehr, dennoch muss dies nicht bedeuten, 
dass die hinter einem stigmatisierten Begriff stehenden Inhalte ebenfalls keine 
Verwendung finden. Eine Kontinuität im Ausagieren eugenischer Ideen darf at- 
testiert werden angesichts der Diskussion um die Verdummung der Deutschen 
(Sarrazin, 2010), der Präimplantationsdiagnostik oder der Forderung des Poli- 
tikers Bernd Lucke, dass Akademikerinnen mehr Kinder bekommen sollen. 
Speck (2003) schreibt in Anspielung an die nach kapitalistischen Maßstäben 
angestrebte Ökonomisierung vieler Lebensbereiche, die Heilpädagogik sei her- 
ausgefordert, wenn zunehmend „Lebensbereich und Handlungsmuster von 
ökonomischen Wertmaßstäben bestimmt werden, und sich eine neue Eugenik 
anmeldet, die einen Menschen nach Maß anstrebt.“ (2003, S. 133 ff.) 

Auch in der Psychologie sind im Besonderen in der Intelligenzforschung 
heftige Diskussionen geführt worden, bei denen eugenische Ideen Wissen- 
schaftlerInnen unterstellt worden sind. Beispielhaft angeführt sei hier die Dis- 
kussion um das Buch The Bell Curve von Herrnstein und Murray (1994). Sie 
ziehen aus ihrem Vergleich zu Intelligenztestergebnissen verschiedener ethni- 
scher Gruppen u.a. den Schluss, dass weiße US-AmerikanerInnen ca. eine Stan- 
dardabweichung (also ca. 15 IQ Punkte) intelligenter seien als schwarze US- 
AmerikanerInnen, attestierten aber auch anderen ethnischen Gruppen eine ge- 
ringere Intelligenz. Ein Kernpunkt vieler kritischer Auseinandersetzungen war 
Herrnsteins und Murrays Schlussfolgerung, die mit einer geringeren Intelligenz 
versehenen Angehörigen der Ethnien wirkt sich nachteilig auf die Durch- 
schnittsintelligenz in den USA aus, seien aber auch maßgeblich verantwortlich 
für Armut, Arbeitslosigkeit oder Kriminalität (Maltby et al., 2011, S. 639). So- 
mit wird Angehörigen einer bestimmten Ethnie eine geringere Intelligenz (im 
Durchschnitt zur weißen Kontrollgruppe) unterstellt und die Zugehörigkeit zu 
dieser Ethnie auch als Risikofaktor für Armut und Kriminalität. Ausgeblendet 
würde bei dieser Sichtweise die Ausgrenzung verschiedener Bevölkerungsgrup- 
pen am Wohlstand der herrschenden (weißen) Schichten und die mit der Aus- 
grenzung verbundene Arbeitslosigkeit oder höhere Kriminalität. Finzsch (1999) 
fasst die seiner Meinung nach wichtigsten Aussagen des Buches so zusammen: 


Man nehme eine allgemeine Intelligenz G (General Intelligence), definiert als ‚a per- 


son’s capacity for complex mental work‘ als breites Maß der Intelligenz. Dieses Maß 


40 


G kann auch mit einem Intelligenzquotienten IQ gleichgesetzt werden, der genau 
und ohne Verzerrung (Cultural Bias) festgelegt werden kann. Dieser IQ sei zu 40% 
bis 80% vererbt und relativ stabil, unabhängig vom Lebensalter der Versuchsperso- 
nen. Die Testergebnisse von IQs bei African Americans seinen [sic] signifikant nied- 
riger als die von Weißen. Niedrige IQ-Werte seien unter anderem die Folge von ge- 
sellschaftlichen Problemen wie Armut, Verbrechen, Arbeitslosigkeit, unehelichen 
Geburten und der Abhängigkeit von der Sozialhilfe. Hohe IQ-Werte korrelierten mit 
gesellschaftlichem Erfolg. Die Welt differenziere sich rasch in eine kognitive Elite 
und eine kognitiv defizitäre Unterklasse. Es sei unmöglich, IQ-Werte anzuheben 
und Sozialprogramme (...) seien sinnlos, kontraproduktiv oder beides. Da sich also 
an den IQ-Werten verschiedener Populationen nichts ändern lasse, sei es geboten, 
das Prinzip des Laisser-faire walten zu lassen und Menschen dort ihren gesellschaft- 


lichen Platz finden zu lassen, wo sie hingehörten. (ebd., S. 86) 


Ein bewährtes Argumentationsmuster eugenisch denkender Intelligenzforsche- 
rInnen auf Kritik ist die Berufung auf die Wahrheit, das Beklagen eines angebli- 
chen Denkverbotes und die Berufung auf objektives Forschen nach den Krite- 
rien wissenschaftlicher Standards, welches auch Ergebnisse nach sich zieht, die 
nicht en vogue sind. Doch dieses vordergründige Berufen auf die Wahrheit und 
auf wissenschaftliche Standards unabhängig vorgefertigter Meinungen wird 
konterkariert durch den Nachweis vielfältiger Querverbindungen zwischen Eu- 
genikerInnen und faschistisch-rassistischen Publikationen und Denkmustern 
(Velden, 2013; Billig, 1979; Knebel & Marquardt, 2012; Finzsch, 1999; Kaupen- 
Haas & Saller, 1999; Kühl, 1999, 2014; Haller & Niggeschmidt, 2012; Mecklen- 
burg, 2002; Sesin, 2012). 

Letztlich stehen eugenische Ansichten diametral sonderpädagogisch-heil- 
pädagogischen Grundwerten entgegen, die Unterschiede zwischen den Menschen 
akzeptiert, sich nicht auf die Suche nach der Optimierung der menschlichen 
Rasse, sondern auf die Suche nach der optimalen Förderung jedes Menschen 
macht. Dabei werden intellektuelle Abweichungen nicht als für die Gesellschaft 
schädlich betrachtet, sondern akzeptiert. Geistig behinderten Menschen wird 
weder das Recht auf Sexualität noch das Recht auf Fortpflanzung und schon gar 
nicht das Recht auf Leben verwehrt. Die sich am Humanismus orientierenden 
Ideale der Sonderpädagogik sind ein Ende eines Pols, an deren anderem Ende 
die Eugenik steht. Die Gustav Heinemann zugeschriebene Aussage, man erken- 
ne den Wert einer Gesellschaft daran, wie sie mit den schwächsten Gliedern 
verfährt, steht im Widerspruch zu eugenischen Ideen, die schwache Glieder ei- 
ner Gesellschaft gar nicht erst zulassen möchte. 

KritikerInnen der Eugenik werfen bei der Konstruktion von Intelligenztests 
ForscherInnen vor, die Intelligenz mit einer die Intelligenz repräsentierenden 
Zahl kennzeichnen zu wollen, denn nur dann wären die eugenischen Denk- 
muster und Schlussfolgerungen möglich, die intellektuelle Unterschiede zwi- 
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schen Ethnien postulieren. Die Kennzeichnung der Intelligenz auf einen Nenn- 
wert, dem Gesamt-IQ, ist nur möglich, orientiert man sich an einer entspre- 
chenden Theorie, die von einem Generalfaktor der Intelligenz ausgeht (Knebel & 
Marquardt, 2012; Finzsch, 1999). Würde man von multifaktoriellen Intelligenz- 
theorien ausgehen wie bei Gardner (1983) oder Sternberg (1985), wäre dies 
nicht möglich. Es stellt sich also die Frage, ob die Postulierung des Generalfak- 
tors der Intelligenz, aktuell repräsentiert durch das CHC-Modell, nicht in der 
Tradition eugenischer Denkmuster zur Instrumentalisierung entsprechender 
Vorstellungen entstanden ist. Dies würde konsequent zu Ende gedacht bedeu- 
ten, dass SonderpädagogInnen mit der Durchführung eines Intelligenztests eine 
Handlung im Geiste der Eugenik durchführten. 

Dass eugenisch denkende WissenschaftlerInnen maßgeblich an der Ent- 
wicklung des Generalfaktors der Intelligenz beteiligt waren, steht nicht in Frage. 
Auch wenn Horn und Carroll, deren Initialen neben Cattells Initialen für das 
CHC-Modell stehen, nicht mit Eugenik in Verbindung gebracht werden, so 
darf angenommen werden, dass Cattells Wirken als Eugeniker Horn und Car- 
roll bekannt gewesen war. Es ist irritierend, dass dies nicht dazu geführt hat, 
nicht als Bestandteil eines absehbar in der Wissenschaft bedeutsamen Intelli- 
genzmodells in einem Zug mit einem Wissenschaftler genannt werden zu wol- 
len, der sich deutlich in der Tradition der Eugenik positionierte, dem Cattell- 
Horn-Carroll-Modell. 

Angesichts der Tatsache, dass die Eugenik innerhalb der Intelligenzfor- 
schung eine bedeutsame Rolle spielte, stellt sich weiterhin die Frage nach der 
Motivation für das Forschungsinteresse an dem Konstrukt Intelligenz und es 
bleibt zu hoffen, dass dies nicht zu einem großen Teil mit diesem Zitat beant- 
wortet ist, welches Myers (2008) Lewis Terman zuschreibt: Intelligenztests die- 
nen nach Terman dazu „letztendlich die Fortpflanzung von Schwachsinn deut- 
lich einzuschränken und dadurch zur Beseitigung eines hohen Maßes an Kri- 
minalität, Massenarmut und Ineffizienz in der Industrie beitragen zu können“ 
(Terman, zitiert nach Myers, 2008, S. 411). 


2.3.2.5 Das CHC-Modell als integrierendes Intelligenzmodell 


Maßgeblich an diesem Modell beteiligt waren die Wissenschaftler Cattell, 
Horn, Carroll, aber auch W. Woodcock. John Leonard Horn (1929-2006) lehr- 
te bzw. arbeitete an Universitäten in den USA, England und Schweden und 
studierte u.a. in Australien (Intelltheory, 2013a). Sein ursprüngliches Ziel, Ma- 
thematik- und Chemielehrer zu werden, gab er zugunsten eines Psychologie- 
studiums auf. Als Student lernte er R.B. Cattell kennen und wurde sein Schüler, 
zusammen arbeiteten sie langjährig zusammen. Wie Cattell postulierte Horn 
(1965) eine fluide und kristalline Intelligenz, verwarf aber später den Glauben 
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an die Existenz eines Generalfaktors der Intelligenz (Maltby et al., 2011, S. 530). 
Obwohl er die Bezeichnung Gf-Gc-Theorie weiterverwendete, entdeckte er ne- 
ben der fluiden und der kristallinen Intelligenz sieben weitere Intelligenzdimen- 
sionen, z.B. auditive Verarbeitung, Verarbeitungsgeschwindigkeit oder visuelle 
Verarbeitung (ebd., S. 530). Zeitlebens stand Horn der Existenz eines General- 
faktors der Intelligenz skeptisch gegenüber. Dies würde bedeuten, dass eine Ex- 
trahierung eines Gesamt-IQ auf Grundlage des CHC-Modells, auf dem die 
meisten Tests basieren, die von SonderpädagogInnen angewendet werden, ei- 
gentlich nicht möglich ist. Maltby et al. (2011, S. 531 f.) beschreiben das CHC- 
Modell sogar als ein Modell ohne übergeordneten Generalfaktor. 

John B. Carroll (1916-2003) war ein pädagogischer Psychologe und Militär- 
psychologe und Schüler von B.F. Skinner und der Intelligenzforscherin F. Good- 
enough [Anm. T.J.: Goodenough entwickelte unter anderem den Mann-Zei- 
chen-Test (Draw-a-Man) und stand der Darstellung der Intelligenz in Form 
eines IQ ebenso wie Horn skeptisch gegenüber] (Intelltheory, 2013b). Er lehrte 
an US-amerikanischen Universitäten. Unter anderem beschäftigte sich Carroll 
mit der Linguistik und dem Fremdsprachenunterricht (ebd.), bekannt wurde er 
allerdings mit einer aufwendigen Metaanalyse von Daten, deren Resultat die 
Postulierung eines Intelligenzmodells nach sich zog, welches als Drei-Schich- 
ten-Modell (Three-Stratum Theory of Human Cognitive Abilities) bekannt wur- 
de (Carroll, 1993). Mit 461 zwischen 1927 und 1987 erhobenen Datensätzen, 
deren Inhalte die Untersuchung von statistischen Zusammenhängen zwischen 
Aspekten der Intelligenz (Baudson, 2012) waren, führte er Faktorenanalysen 
durch, deren Resultat das Drei-Schichten-Modell darstellt, welches drei Ebenen 
der Intelligenz beschreibt (Carroll, 1993). Auf Stratum III (Ebene 3) dieses hier- 
archischen Modells befindet sich der Generalfaktor der Intelligenz, ähnlich dem 
Generalfaktor, wie er auch von Spearman postuliert wurde. Auf Stratum II be- 
finden sich acht übergeordnete Faktoren, die in gängigen Intelligenztests wie 
KABC-I oder WISC-IV Indice genannt werden, in diesen Tests allerdings un- 
ter Berufung auf die Stratum-II-Faktoren des auch aus dem Carroll Modell re- 
sultierenden CHC-Modells. Die 8 Faktoren nach Carroll sind: 


Fluide Intelligenz, 

kristalline Intelligenz, 
allgemeine Gedächtnisfähigkeit, 
visuelle Wahrnehmung, 
auditive Wahrnehmung, 
Abruffähigkeit, 

kognitive Geschwindigkeit, 
Verarbeitungsgeschwindigkeit. 


a FT ON 1 Ze na Zee 


43 


Auf Stratum I wurden 69 (Maltby et al., 2011, S. 530) spezifische Fähigkeiten er- 
kannt, auf deren Darstellung zu Gunsten einer ausführlicheren Darstellung der 
Stratum-I-Ebene des auch aus dem Drei-Schichten-Modells resultierenden 
CHC-Modells an dieser Stelle verzichtet wird. Carroll war Mitunterzeichner des 
Aufsatzes Mainstream Science on Intelligence (Gottfredson, 1994), einer Solida- 
ritätsnote für die Autoren des heftig u.a. als rassistisch kritisierten Buches The 
Bell Curve von Herrnstein und Murray (1994). 

Auf einem 1999 stattfindenden Treffen versuchte der Psychologe und Test- 
autor Richard W. Woodcock ein integrierendes Modell von Intelligenz zu erar- 
beiten und traf sich zu diesem Zweck mit Horn und Carroll (Cattell war ver- 
storben). Woodcock (geboren 1928) hat u.a. den in den USA renommierten 
Test Woodcock-Johnson Psychoeducational Battery - Revised: Tests of Cognitive 
Ability (Woodcock, McGrew & Mather, 2001) entwickelt und unternahm den 
Versuch einer Integration sich ähnelnder Intelligenzmodelle. Erstaunlich pro- 
blemlos und zügig gelang dies, so dass Baudson (2012, S. 10) feststellte, dass 
sich manchmal Streitigkeiten und vermeintliche Widersprüche auf kreative Art 
lösen lassen. Im Wesentlichen wird mit dem CHC-Modell das Cattell-Horn- 
Modell der fluiden und kristallinen Intelligenz sowie das Drei-Schichten-Modell 
nach Carroll vereinigt, aber auch Ansätze von Thurstones Primärfaktoren- 
Theorie, deren ursprüngliche Negierung eines Generalfaktors von Thurstone 
modifiziert wurde zugunsten der Annahme eines Generalfaktors. Erstmals be- 
schrieben wurde das CHC-Modell von Flanagan, McGrew und Ortiz (2000). 

Ähnlich dem Drei-Schichten-Modell nach Carroll werden auf drei Ebenen 
(Stratum I bis Stratum III) hierarchisch von oben nach unten der Generalfaktor 
der Intelligenz (Stratum III) beschrieben, darunter auf Stratum II breite Fähig- 
keitsbereiche (broad abilities) wie z.B. fluide und kristalline Intelligenz, auditive 
Verarbeitung oder Langzeitspeicherung. Auf der untersten Ebene Stratum I be- 
finden sich spezifische oder enge Fähigkeiten (narrow abilities), die sich in Grup- 
pen den breiten Fähigkeitsbereichen zuordnen lassen. In ersten Erläuterungen 
(first Generation) zu dem CHC-Modell wird von 10 Faktoren auf zweiter Ebene 
und 73 Faktoren auf der ersten Ebene ausgegangen (Mickley & Renner, 2010, 
S. 449). Eine aktuellere Beschreibung des CHC-Modells wurde von Flanagan, 
Ortiz und Alfonso (2013) und Schneider und McGrew (2012) vorgenommen 
und beinhaltet auf Stratum-II-Ebene 16 Bereiche, untergliedert in erworbene 
Wissenssysteme, allgemeine Fähigkeiten und sensorisch/motorische Fähigkei- 
ten. Auf Stratum I befinden sich ca. 80 enge Fähigkeiten (siehe Abbildung 1). 

Es ist ein grundlegendes Problem bei der Entwicklung eines Intelligenztests, 
die Erklärung dessen, was Intelligenz darstellen soll, durch ein Testverfahren 
abrufen zu können. Es ist möglich, dass eine theoretische Erklärung über das 
Konstrukt Intelligenz richtig ist, aber nicht durch einen Test validiert werden 
kann. Wird Intelligenz definiert als ein Zusammenspiel von kognitiven Fähig- 
keiten, die im deutlichen Zusammenhang mit der augenblicklichen (Test-)Situa- 
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Abbildung 1. Das CHC-Modell. Die 16 breiten Fähigkeiten sind in drei inhaltlich ähnli- 
che Bereiche unterteilt und farblich gekennzeichnet. Wenig testrelevante breite Fähig- 
keiten wie Olfaktorische Fähigkeiten werden vernachlässigt dargestellt und unter wei- 
tere breite Fähigkeiten subsummiiert (vgl. Flanagan et al., 2013; Schneider & McGrew, 
2012; Renner & Mickley, 2015b). 
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tion betrachtet werden muss, also situativ variabel ist - auch durch möglicher- 
weise noch nicht verstandene Abläufe im Gehirn während der Entwicklung von 
Problemlösungsstrategien während einer Testsituation - und zudem noch stark 
kulturabhängig (auch innerhalb einer Kultur wie der deutschen Kultur, die es 
auf Grund vielfacher Subkulturen so sicherlich nicht gibt), dann ist eine Test- 
konstruktion methodisch schwer möglich. Wird zudem noch postuliert, dass es 
verschiedene gleichbedeutsame Intelligenzen gibt, die nebeneinander Bestand 
haben und nicht in einen Gesamtwert münden, der der Tendenz von Menschen 
nach Vereinfachung und Kategorisierung entgegenkommt; wenn dann noch 
nicht testbare Konstrukte wie Kreativität (wer wollte festlegen, was kreativ ist 
und was nicht?) Bestandteile der Intelligenz sein sollen, dann wird die Beschrei- 
bung von Intelligenz bei einer Beschreibung bleiben, nicht mündend in einer 
möglichen Überprüfung durch einen Intelligenztest. 

Das CHC-Modell der Intelligenz ist verlockend für die Entwicklung eines 
Intelligenztests. Auch wenn es sich um eine Beschreibung der Intelligenz und 
nicht um eine Definition handelt (Mickley & Renner, 2010; Renner & Mickley, 
2015b), liegt die mögliche Konzeptualisierung der im Modell beschriebenen As- 
pekte auf der Hand. Sogar der Aufbau eines Tests wird durch die drei Schichten 
bereits in Bahnen gelenkt. Die im Stratum I beschriebenen engen Fähigkeiten 
geben Hinweise auf die Gestaltung der Subtests, die im Stratum II beschriebe- 
nen breiten Fähigkeiten geben Hinweise auf die Gestaltung von Indices (siehe 
KABC-I, WISC-IV), übergeordneten und gut interpretierbaren Bereichen und 
alles mündet in einen Gesamtwert, der das intellektuelle Potential der getesteten 
Person widerspiegelt und Prognosen z.B. über den Schulerfolg zulässt. Es bleibt 
zweifelhaft, ob Bereiche auf Stratum-II-Ebene wie die auf den Geruchssinn be- 
zogenen Olfaktorischen Fähigkeiten als Teilbereich der Intelligenz überprüfbar 
werden. In der aktuellen Beschreibung der CHC-Theorie werden ebenso Takti- 
le Fähigkeiten und Kinästhetische Fähigkeiten als Bestandteile der Intelligenz be- 
schrieben (Flanagan et al., 2013; Schneider & McGrew, 2012). Allerdings sind 
diese noch wenig untersuchten Bestandteile des aktuellen CHC-Modells auch 
nicht Gegenstand eines Intelligenztests, welcher in Deutschland von Sonder- 
pädagogInnen durchgeführt wird. 

Mit Hilfe des CHC-Modells ist es sogar möglich, sich einer Fragestellung im 
diagnostischen Prozess mit Hilfe mehrerer Subtests aus verschiedenen Testver- 
fahren zu nähern, sofern die Testverfahren auf Grundlage des CHC-Modells 
konstruiert worden sind. Dies ist bei den meisten gebräuchlichen Intelligenz- 
tests der Fall, welche in Deutschland von SonderpädagogInnen angewendet 
werden. Fällt z.B. bei einem Kind im Unterricht auf, dass dieses sich nicht gut 
merken kann, was die Lehrkraft auditiv vorträgt (Stratum-I: Auditive Verarbei- 
tung, auch Kurzzeitgedächtnis), besteht also bei einem Kind der Verdacht auf 
ein Defizit in der akustischen Merkfähigkeit (als Teilbereich der auditiven Ver- 
arbeitung), so könnten die Subtests Zahlennachsprechen und Wortreihe der 
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KABC-I mit Zahlennachsprechen der IDS und Zahlennachsprechen vorwärts” 
des WISC-IV kombiniert werden. Interessante Ansätze zu einem Cross-battery 
assessment liefern hierzu Renner und Mickley (2015b). 


2.4 Anwendungen von Intelligenztests 
durch SonderpädagogInnen 


Die vorherigen Kapitel haben Intelligenzmodelle, die Intelligenzmessung und 
Widersprüche in diesem Zusammenhang beschrieben, um das Konstrukt bei 
der Anwendung von Intelligenztests verstehen zu können: Intelligenz bzw. die 
zur Ermittlung von Intelligenz verwendeten Tests. Darauf aufbauend soll sich 
nun der Fragestellung dieser Arbeit konkreter genähert werden: Rahmenbedin- 
gungen und Schwierigkeiten im Umgang mit Intelligenztests durch Sonderpäd- 
agogInnen. 

Ziel dieses Kapitels ist die Darstellung bereits in der Forschung beschriebe- 
ner Schwierigkeiten bei der Anwendung von Intelligenztests. Im ersten Teil sol- 
len Forschungsergebnisse bei der Anwendung von Intelligenztests in Deutsch- 
land beschrieben werden. Bereits vorhandene Forschungsergebnisse tragen 
dazu bei, den Fokus auf Fragestellungen im methodischen Teil richtig auszu- 
richten, tragen aber auch dazu bei, bereits gut beforschte Teilbereiche nicht 
wiederholt zum Gegenstand von Fragestellungen werden zu lassen. 

Im zweiten Teil dieses Kapitels soll geprüft werden, ob bekannte Schwierig- 
keiten im Sinne der Fragestellung auch im Ausland bekannt sind. Dies würde 
allerdings unterstellen, dass SonderpädagogInnen außerhalb Deutschlands ver- 
gleichbar häufig und institutionalisiert Intelligenztests durchführen. Weltweit 
unterscheiden sich Schulsysteme und die Tätigkeiten von SonderpädagoglInnen. 
Bevor nach Belegen zu Schwierigkeiten bei der Anwendung von Intelligenztests 
durch special education teachers (dieser Begriff soll im Folgenden die Gruppe 
der nicht deutschen SonderpädagogInnen beschreiben, auch wenn je nach Staat 
und Sprache andere Übersetzungen vorliegen) gesucht wird, muss geklärt wer- 
den, ob special education teachers ähnlich wie Sonderpädagoglnnen Intelligenz- 
tests anwenden. Wäre die häufige Anwendung von Intelligenztests durch Son- 
derpädagogInnen in Deutschland eine weltweite Ausnahme in den jeweiligen 
Stellenbeschreibungen der special education teachers, erübrigte sich die Recher- 
che nach vorhandenen Befunden: führen special education teachers außerhalb 
Deutschlands keine Intelligenztests durch, können Belege zu Schwierigkeiten 
bei der Anwendung von Intelligenztests nicht vorliegen. 


20 Zahlennachsprechen rückwärts bedarf bei der Fragestellung auditive Merkfähigkeit einer 
besonderen Interpretation. 
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2.4.1 Untersuchte Schwierigkeiten bei der Testanwendung 
in Deutschland 


Neben der Sichtung entsprechender Fachbücher zur (sonderpädagogischen) 
Diagnostik und der Sichtung der Indexe sonderpädagogischer Fachzeitschrif- 
ten, im Besonderen der Zeitschrift für Heilpädagogik, wurden Datenbanken ge- 
nutzt. 

PubPsych ist eine Metadatenbank mit über 930000 Datensätzen, welche 
sich vor allem aus Aufsätzen aus psychologischen Fachzeitschriften, aber auch 
den gängigen sonderpädagogischen und pädagogischen Zeitschriften zusammen- 
setzen. Renommierte Datenbanken wie PSYNDEX, PsychOpen oder PsychData 
gehören zu PubPsych. Da das Thema dieser Arbeit der psychologischen Son- 
derpädagogik zugeordnet werden kann, erscheint eine Recherche in PubPsych 
angemessen. 

Bewusst wurden auch allgemeine Suchworte wie Intelligenztest verwendet, 
auch wenn die Trefferlisten groß waren. Bei der Thematik dieser Arbeit kann 
vermutet werden, dass nur wenige Veröffentlichungen einen eindeutigen Hin- 
weis auf den Forschungsstand geben würden. Wie erwartet wiederholten sich 
die Datensätze, z.B. bei Eingabe der Suchworte Intelligenztest und Intelligenz- 
tests, doch hatte dies im Rahmen der Sichtung gleichzeitig eine Kontrollfunk- 
tion, so dass es unwahrscheinlicher war, interessante Artikel zu übersehen. Es 
wurde damit gerechnet, dass es nur wenige Hinweise auf Schwierigkeiten bei 
der Anwendung von Intelligenztests im sonderpädagogischen Kontext geben 
würde, deshalb wurden Hinweise auf Schwierigkeiten bei der Anwendung von 
Intelligenztests auch in anderen Kontexten (Erziehungsberatungsstellen, Schul- 
psychologie etc.) nicht ausgeschlossen, sofern diese Hinweise interessant im 
Sinne der Fragestellung schienen. Die Suchworte in Tabelle 1 ergaben folgende 
Trefferlisten, die gesichtet worden sind: 


Tabelle 1. Trefferlisten von Suchmaschinen. 


Stichwort Anzahl Treffer 
„Intelligenztest“ 796 
„Intelligenztests“ (ab 1995) 597 
„Durchführungsobjektivität“ 17. 
„IQ“ (nur Publikationen ab 1995) 320 
„Testleiter“ 57 
„Flynn“ 19 


Anmerkung. Stand 23.1. 16. Sofern nicht anders angegeben alle Jahre und nur in dt. Sprache. 
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In die folgende Darstellung von Untersuchungsergebnissen werden auch Schwie- 
rigkeiten bei der Anwendung von Intelligenztests durch andere Berufsgruppen 
einbezogen, z.B. PsychologInnen. Dies honoriert die schwache Befundlage, 
kann aber auch inhaltlich begründet werden. Beschriebene Schwierigkeiten bei 
der Anwendung von Intelligenztests in der Praxis ähneln sich sowohl in son- 
derpädagogischen als auch in psychologischen Kontexten, da die Anwendung 
standardisiert ist und die Durchführungs- und Auswertungsregeln unabhängig 
vom beruflichen Hintergrund der AnwenderInnen identisch sind. Ein Einbezug 
von Untersuchungsergebnissen im Sinne der Fragestellung auch in psychologi- 
schen Kontexten ist gewinnbringend, da übertragbar auf den sonderpädagogi- 
schen Bereich. Generell kann angenommen werden, dass Intelligenztests in 
psychologischen Beratungsstellen, durch SchulpsychologInnen, in sozialpädia- 
trischen Zentren oder psychiatrischen Einrichtungen häufiger angewendet wer- 
den als durch SonderpädagogInnen’'. Die daraus resultierende größere Routine 
bei der Anwendung von Intelligenztests durch PsychologInnen hat zur Folge, 
dass die beschriebenen Schwierigkeiten in psychologischen Kontexten poten- 
ziert angenommen werden können bei der (vermuteten) selteneren Anwendung 
durch SonderpädagogInnen, da die Routine tendenziell geringer ist. Beziehen 
sich Untersuchungsergebnisse ausschließlich auf den sonderpädagogischen 
Kontext, wird dies kenntlich gemacht. 

Huber (2000) beschreibt die sonderpädagogische Diagnostik im Spannungs- 
feld traditioneller und gegenwärtiger Sichtweisen, wobei traditionelle Diagnostik 
in der Sonderpädagogik wertfrei mit normorientierter und objektiv-quantitati- 
ver Diagnostik; gegenwärtige Diagnostik als individuumsorientiert und subjek- 
tiv-qualitativ beschrieben wird (ebd., S. 411). Untersucht wurde die Anwen- 
dung von Intelligenztests innerhalb dieses Spannungsfelds. Während vor 1995 
in Nordrhein-Westfalen die Verwendung eines Intelligenzquotienten maßgeb- 
lich zum Erkennen sonderpädagogischen Förderbedarfes”? beitragen sollte, ver- 
lor die Bestimmung eines Gesamt-IQ an Bedeutung. Obwohl also die Anwen- 
dung eines Intelligenztests nicht mehr zwingend war, konnte er durchgeführt 
werden. Basierend auf den Ergebnissen einer empirischen Untersuchung (Hu- 
ber, 2000) - es wurden 313 LehrerInnen aus 14 Sonderschulen für Körper- 
behinderte in NRW befragt - konnte festgestellt werden, dass die Anwendung 
der Intelligenztests häufig nicht den Anforderungen der Durchführungsobjek- 


21 Die Häufigkeiten der Anwendung von Intelligenztests durch SonderpädagogInnen wird 
im methodischen Teil näher untersucht werden. 

22 Vor 1995 nannte sich das sonderpädagogische Gutachten in NRW „Sonderschulaufnahme- 
verfahren“ (SAV), danach „Verordnung zur Feststellung des sonderpädagogischen För- 
derbedarfs“ (VO-SF), heute nennt es sich „Ausbildungsordnung zum sonderpädagogi- 
schen Förderbedarf“ (AO-SF). 
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tivität entsprachen. Nur 2,4 Prozent der LehrerInnen gaben eine Durchführung 
unter den vorgeschriebenen standardisierten Bedingungen an (ebd., S. 412), am 
häufigsten (78% der Befragten) wurden die Zeitgrenzen (zusätzliche Zeitgaben, 
begründet mit der Körperbehinderung der getesteten Kinder) missachtet. Aber 
auch zusätzliche Hilfestellungen (35%) bis hin zu „leichten Hinweisen zum Lö- 
sungsweg“ (ebd., S. 412) sowie andere Verletzungen der Durchführungsregeln 
scheinen eher die „Regel als die Ausnahme“ (ebd., S. 412) zu sein. Huber be- 
fürchtet resümierend, dass „zumindest ein Teil der quantitativen Testergebnisse 
(...) durch einen fragwürdigen Umgang mit dem Testmaterial aussagelos sind“, 
dieser Trend sei problematisch, da auf Grundlage dieser Ergebnisse Schul- und 
Lebenswege beeinflusst sind (ebd., S. 412). 

Auch die Testverfahren selbst sind problematisch, da häufig veraltet. So 
wurde am dritthäufigsten eine Version des HAWIK von 1956 angewendet. Be- 
zogen auf die Debatte Statusdiagnostik vs. Förderdiagnostik beschreibt Huber 
die Anwendung von Intelligenztests als nützlichen Beitrag zu objektiven Ergeb- 
nissen, welche die Gefahr subjektiver Fehleinschätzungen verringert. Intelli- 
genztests werden nicht als gefährlich beschrieben, „sondern nur Personen, die 
den verantwortungsvollen Umgang mit Tests und Testergebnissen nicht be- 
herrschen“ (ebd., S. 415). 

Es liegt auf der Hand, dass die Durchführung eines komplexen Intelligenz- 
tests mit all seinen Regeln einer gründlichen Vorbereitung bedarf. Ebenfalls auf 
der Hand liegt, dass eine gelegentliche Durchführung, z.B. alle vier Monate, 
dazu führen muss, sich erneut ausführlich mit den Durchführungsregeln zu 
beschäftigen. Würde in einem Kollegium die Anfertigung der Gutachten wei- 
testgehend auf alle Lehrkräfte verteilt werden, resultierte daraus ein gelegentli- 
ches Testen, welches zur Folge hätte, dass immer wieder erneut eine Beschäfti- 
gung mit den Durchführungsregeln stattfinden müsste, da die Anwendung der 
Durchführungsregeln nur mit Hilfe von Routine ohne besondere Vorbereitung 
gewährleistet wäre. Eine logische Konsequenz dieser Schwierigkeiten könnte 
die Spezialisierung weniger SonderpädagoglInnen bei der Anwendung von In- 
telligenztests sein. Obwohl zu Recht eingewendet wird, dass die Anwendung 
standardisierter Testverfahren zu den Kompetenzen von SonderpädagogInnen 
gehört, stellt sich die Frage, ob dies nicht an der Realität vorbeigeht. Ohne Be- 
rücksichtigung standesrechtlicher Belange, besonderer Vergütungen auf Grund 
psychologischer Tätigkeiten und Stellenbeschreibungen von SonderpädagoglIn- 
nen wäre zu überlegen, ob nicht wenige spezialisierte SonderpädagoglInnen oft 
standardisierte Tests routiniert durchführen anstatt alle SonderpädagogInnen 
unroutiniert selten. 

Bekannt sind entsprechende Bestrebungen in Hamburg, Berlin und Bran- 
denburg. Dort werden tendenziell die sonderpädagogischen Gutachten und 
komplexeren standardisierten Testverfahren von MitarbeiterInnen von Diagnos- 
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tikteams durchgeführt, speziell und kontinuierlich in Testverfahren ausgebilde- 
te SonderpädagogInnen (Land Brandenburg, 2013; Senat Berlin, 2012)”. 

Müller (2009) beschreibt die Schwierigkeiten einer gelegentlichen Anwen- 
dung von Intelligenztests und anderer standardisierter Verfahren, um zu dem 
Schluss zu kommen, dass schulinterne Diagnostikansprechpartner Abhilfe 
schaffen könnten. Die beschriebenen Schwierigkeiten bei der seltenen Anwen- 
dung von u.a. Intelligenztests sind (ebd., S. 180): 


e eine schwierige Integration in den Unterrichtsablauf, 

e oft nur in der zeitaufwändigen Einzelsituation durchführbar, 

e wenn Gruppentestung möglich, erschweren mögliche Verhaltensauffällig- 
keiten der Kinder die Anwendung, 

© begrenzte personelle Ressourcen für die Anwendung vorhanden. 


Aus dem erkannten Widerspruch „zwischen der Anforderung einer ausführli- 
chen Diagnostik als Voraussetzung für individualisierte Förderung und der nur 
sehr eingeschränkten Umsetzung in die Praxis“ (ebd., S. 180) könnte die Im- 
plementierung von Diagnostikansprechpartner resultieren. Diese führen dann 
auch aufwändige formelle Verfahren durch, um objektivere und grundsätzli- 
chere Einblicke zu gewähren im Gegensatz zu den schneller und einfacher 
durchgeführten informellen Verfahren, die oft einer subjektiven Färbung un- 
terliegen (ebd., S. 182). Aufgaben der Diagnostikansprechpartner sind neben 
der Einarbeitung in Fragen der Diagnostik, der Durchführung und Auswertung 
diagnostischer Verfahren inkl. Ableitungen von Fördermaßnahmen aus den 
Testergebnissen auch die Beratung in Fragen der Diagnostik und die Vorstel- 
lung von Testverfahren (ebd., S. 182). In einem Modellversuch an einer Düssel- 
dorfer Förderschule (Förderschwerpunkte Lernen und Emotional-Sozial) wurde 
die Diagnostik auf eine Lehrkraft gebündelt [Anm.: Müller selbst], die dafür 
2 Stunden wöchentlich Ausgleich erhielt. Unter Einbezug der anderen Lehr- 
kräfte, die Wünsche für durchzuführende Testverfahren und Fragestellungen 
nannten, führte die Umsetzung des Konzepts dazu, dass die anderen Lehrkräfte 
sich in ihren Anliegen nach diagnostischer Abklärung ernst genommen fühlten, 
verwertbare diagnostische Hinweise erhielten ohne selbst diagnostisch tätig 
werden zu müssen, und Schulproblematiken der Kinder besser erklärt werden 
konnten (ebd., S. 185). Die kontinuierliche Anwendung der Diagnostik konnte 
durch den Diagnostikansprechpartner eher verwirklicht werden, da die schuli- 


23 Die Diagnostik-SpezialistInnen in Hamburg arbeiten ohne veröffentlichtes Konzept in 
Absprache. Auskunft erteilt die Referatsleitung Landesinstitut für Lehrerbildung und 
Schulentwicklung (LI); Referat Sonderpädagogik & Individuelle Förderung; Felix-Dahn- 
Str. 3, 20357 Hamburg. 
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schen Rahmenbedingungen (ebd., S. 185) eine systematische Diagnostik nicht 
zuließen. 

Kritisch darf bei dem von Müller beschriebenen Konzept eingewendet wer- 
den, dass die Einverständniserklärung der Sorgeberechtigten als Voraussetzung 
für die Anwendung eines standardisierten normierten Testverfahrens (Avena- 
rius, 1990) nicht in dem ansonsten detailliert beschriebenen Ablauf des dia- 
gnostischen Prozesses erwähnt wird. 

Als Standardwerk der sonderpädagogischen Diagnostik kann die Einfüh- 
rung in die sonderpädagogische Diagnostik (Bundschuh, 2010) angeführt werden. 
Bereits im dritten Satz des Kapitels Durchführungsobjektivität merkt Bund- 
schuh an, „es sei sehr fraglich, ob diese Forderung [Anm. T.J.: nach Durch- 
führungsobjektivität] bei einem Teil der Kinder, mit denen wir es zu tun haben, 
in vollem Umfang eingehalten werden kann“ (ebd., S. 83). Die Bedeutung von 
der Vorgabe wortwörtlicher Instruktionen und die negativen Auswirkungen bei 
Nichteinhaltung dieser Vorgaben werden beschrieben. Es wird angemerkt, dass 
Kinder mit sonderpädagogischem Förderbedarf über die in den Handbüchern 
beschriebenen Durchführungsregeln besondere Erklärungen und häufigere 
Pausen etc. benötigen (ebd., S. 83). 


Nachdem der Sonderpädagoge mit diesem Sachverhalt rechnen muss, ihn kennt, be- 
steht bei ihm die Neigung zu besonderen Erklärungen, Wiederholungen der Test- 
instruktion mit jeweils anderen Worten und neuer Akzentuierung. Es besteht die 
Gefahr, dass die Testleistung - weil eben die Instruktion in ihrer ursprünglichen 
Form, also standardisiert, gegeben wurde - eine zu gute Bewertung erfährt (...). 
(ebd., S. 84) 


Die von Bundschuh beschriebenen Problematiken bei der korrekten Anwen- 
dung der Durchführungsobjektivität in der Sonderpädagogik resultieren bei 
ihm in vier Aspekten: 


1. Bei (...) psychometrischen Verfahren muss man die vorgegebenen Instruktionen 
und Testbedingungen einhalten. 

2. Es gibt Verfahren, bei denen zusätzliche Erklärungen in einem bestimmten Rah- 
men abgegeben werden dürfen bzw. müssen. 

3. Bei besonders schwierigen Kindern werden manchmal eine Abänderung der 
zeitlichen Abfolge von Testaufgaben, das Einlegen von Pausen, eine zusätzliche 
Ermutigung oder Lob nötig sein. Solche Maßnahmen sollten jedoch grundsätz- 
lich im Gutachten vermerkt werden. 

4. Es gibt Testverfahren, bei denen bei jüngeren, bei stark gehemmten und bei auf 
sozialen Kontakt angewiesenen Kindern zusätzliche Motivation oder Ermuti- 
gung empfohlen und nahegelegt wird. (ebd., S. 84). 
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Angemerkt sei, dass Punkt 1 im Widerspruch zu den anderen Punkten steht und 
keine Hinweise erfolgen, wie bei den empfohlenen Änderungen der Durchfüh- 
rungsobjektivität die Testergebnisse zu bewerten seien.” 

Schmidt-Atzert und Amelang (2012) beschreiben die Annahmen der Klassi- 
schen Testtheorie und merken an, „dass Testwerte, also die Ergebnisse, die uns 
Persönlichkeitsverfahren, Intelligenztests (...) liefern, fehlerbehaftet sind“ (ebd., 
S. 41). Diese als Messfehler beschriebenen Fehler könnten z.B. auch durch Er- 
innerungs- und Übungseffekte auftreten. 

Übertragen auf den sonderpädagogischen Bereich könnte es z.B. vorkom- 
men, dass ein Kind regelmäßig mit dem CFT 1 getestet wird, weil vielleicht der 
CFT 1 der einzig verfügbare Test im Testschrank ist. 

Messfehler entstehen durch Fehler „bei der Testkonstruktion, bei der 
Durchführung und bei der Auswertung des Tests“ (ebd., S. 43). Bei der Test- 
situation könnten die Bedingungen variieren, z.B. „Lichtverhältnisse, Geräu- 
sche, Luftqualität, Raumtemperatur, Sitzkomfort, Art und Anzahl der Testteil- 
nehmer“ (ebd., S. 44). 

Werning und Lichtblau (2012) bezweifeln, ob eine nicht nach den Regeln 
der Handbücher durchgeführte Testung überhaupt zu verwertbaren Ergebnis- 
sen führt. Sie legen sich fest, indem sie attestieren, dass „eine fehlerhafte Dar- 
bietung der Testaufgaben zu Verzerrungen in den Ergebnissen führt und somit 
zu Testwerten ohne jede Aussagekraft“ (ebd., S. 235). Die Autoren stehen nor- 
mierten Testverfahren grundsätzlich skeptisch gegenüber und fordern bei An- 
wendung eines normierten Intelligenztests, dass dieser wenigstens Ableitungen 
von Stärken und Schwächen ermöglicht im Gegensatz zu Testverfahren, die 
über der Ermittlung eines Gesamt-IQ hinaus kaum weitere Interpretations- 
ideen zulassen. Als gutes Beispiel erwähnen die Autoren die K-ABC. Zu Recht 
wird auf die Aktualität der Normdaten auf Grund des Flynn-Effekts hingewie- 
sen, was wiederum die K-ABC nicht gewährleistet, dafür der WISC-IV. Dieser 
allerdings scheint für viele Kinder mit sonderpädagogischem Bedarf im sprach- 
lich-kommunikativen Bereich ungeeignet (ebd., S. 235). 

Staud und Staud (2011) bezweifeln ebenfalls grundsätzlich die Aussagekraft 
von Intelligenztests, im Besonderen bei der Anwendung bei körperbehinderten 
Kindern. Sie sind skeptisch, dass Kinder mit körperlichen Behinderungen mit 
standardisierten Tests überprüft werden können, da es einerseits den Beson- 
derheiten der Kinder nicht gerecht wird (z.B. Kinder mit einer Spastik können 
schwerlich ein Puzzle unter Zeitdruck nachbauen), andererseits ein sachliches, 


24 Es sei erwähnt, dass bei den meisten Tests allerdings berücksichtigt ist, dass besondere 
Kindergruppen besondere Rahmenbedingungen oder Erklärungen benötigen. In der Re- 
gel muss die Durchführungsobjektivität erst bei bewerteten Items rigide erfolgen, aber 
nicht bei der nichtbewerteten Erklärung von Aufgabenstellungen. 
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objektives Verhalten gerade für diese Kinder hinderlich sein kann, da sie beson- 
ders viel Zuspruch benötigen. 

Lipsius, Petermann und Daseking (2008) beschreiben anschaulich mögli- 
che Fehldiagnosen, die aus Durchführungsfehlern bei der Anwendung des 
HAWIK-IV resultieren können. Intelligenztests werden generell als fehleranfäl- 
lig beschrieben, was Einfluss auf die Validität nehmen kann. Der HAWIK-IV 
wird in diesem Zusammenhang als umfangreiches und komplexes Testverfah- 
ren mit mindestens 200 Anwendungshinweisen (ebd., S. 107f.) beschrieben. 
Der HAWIK-IV (Petermann & Petermann, 2007) ist eine Adaption des US- 
amerikanischen WISC-IV (Wechsler, 2003), dem damals aktuellen Wechsler- 
Verfahren. Dieses, wie auch andere Wechsler-Verfahren, wurden hinsichtlich 
der Durchführungsobjektivität in Studien außerhalb Deutschlands bereits auf 
typische und häufige Durchführungsfehler untersucht, welche im nächsten Ka- 
pitel (Forschungsstand Ausland) näher erläutert werden. Zumindest die Studie 
von Alfonso, Johnson, Patinella und Rader (1998) sei hier bereits erwähnt: auch 
nach intensiver Einarbeitung in die Durchführung und Auswertung des damals 
aktuellen Wechsler-Tests WISC-III (Wechsler, 1991) betrug die Fehlerquote 
von 60 Testprotokollen 100 Prozent, insgesamt wurden 468 Fehler gefunden. Es 
stellte sich also nicht die Frage, ob die Anwendung fehlerhaft war, sondern wie 
viele Fehler je Anwendung gemacht worden sind. Alfonso et al. (1998) wende- 
ten übrigens eine Methode an, die auch für diese Studie geplant ist. Während 
Alfonso et al. die Testprotokolle von speziell geschulten Studierenden unter- 
suchten, sollen in dieser Studie die Testprotokolle von SonderpädagogInnen auf 
Fehler untersucht werden, sofern die Testungen im Rahmen eines sonderpäd- 
agogischen Gutachtens angefertigt worden sind. 

Die Vermutung liegt nahe, dass trotz spezieller Schulung möglicherweise 
Studierende eher anfällig sind für Anwendungsfehler. Lipsius et al. (2008) mer- 
ken hierzu jedoch an, dass besonders erfahrene und geschulte Testleiter anfällig 
für Anwendungsfehler seien. In einem Vergleich zweier Studien von Slate und 
Jones (1990) und Slate, Jones, Coulter und Covert (1992) stellen Lipsius et al. 
(Lipsius et al., 2008, S. 115) fest, dass praktizierende PsychologInnen mehr Feh- 
ler machten als Studierende. 

Bei der Anwendung des HAWIK-IV erkannten Lipsius et al. (2008) vor al- 
lem Fehler beim Abbruchkriterium (z.B. zu früh abgebrochen; zu spät abgebro- 
chen), beim Nachfragen (z.B. nicht nachgefragt, obwohl dies zwingend vorge- 
schrieben war), bei zusätzlichen Vorgaben (z.B. Wiederholung der Zahlenfolgen 
bei dem Subtest Zahlen nachsprechen), bei der falschen Anwendung der Um- 
kehrregel, bei zusätzlichen oder ausgelassenen Zeitnahmen (z.B. statt 120 Se- 
kunden Zeitgabe lediglich 1.20 Minuten Zeitgabe) oder bei der Vernachlässi- 
gung von Items vor der altersbedingten Anfangsaufgabe (fängt ein Kind alters- 
bedingt z.B. bei Item 5 eines Subtests an, fließen die Items 1-4 als richtig gelöst 
in den Rohwert mit ein, sofern die Umkehrregel nicht angewendet werden 
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musste). Anhand von Fallbeispielen zeigten Lipsius et al., welche gravierenden 
Auswirkungen dies auf das Testergebnis und die daraus resultierende Diagnose 
haben könnte. 

Alle Subtests des Bereichs Sprachverständnis sind in einer Anwendung bei 
einem zwölfjährigen Kind falsch durchgeführt worden. Dies führte zu einem 
Unterschied von immerhin 33 IQ Punkten und beeinflusste auch den Gesamt- 
IQ um elf Punkte. Z.B. hatte das Kind im Subtest Gemeinsamkeiten finden auf 
die Frage was ist das Gemeinsame von Schmetterling und Biene eine Ein-Punkte 
Antwort genannt (Tiere), auf Nachfrage ebenfalls eine Ein-Punkte Antwort 
(können fliegen). Dies hat der Testleiter dann addiert zu zwei Punkten. Es blieb 
aber bei einem Punkt, da beide Antworten zu der 1-Punkte Kategorie gehörten 
(2-Punkte z.B. bei Insekt). Das falsch errechnete Gesamtergebnis basierte auf zu 
viel gegebenen Rohwertpunkten und hätte ein Ergebnis zur Folge gehabt, wel- 
ches die Diagnose Hochbegabung zu Unrecht nach sich ziehen könnte. Eine 
daraus resultierende Erhöhung der Anforderungen an das Kind könnte eine 
Überforderung bedeuten. 

In einem weiteren Beispiel errechnete ein Testleiter ein fehlerhaftes Ge- 
samtergebnis für ein 13-jähriges Kind von IQ 76. Sechs von zehn Subtests sind 
fehlerhaft durchgeführt worden. Bei der Auswertung sind vor allem die Items 
vor dem altersspezifischen Startpunkt unberücksichtigt geblieben. Tatsächlich 
lag der Gesamtwert nach der Korrektur bei 91. Wäre dieses Kind getestet wor- 
den, um Hinweise für den sonderpädagogischen Förderbedarf Lernen zu erhal- 
ten, hätte der falsch ermittelte Wert von IQ 76 einen deutlichen Hinweis auf 
diesen Förderbedarf ergeben im Gegensatz zu IQ 91, die möglichen fatalen Fol- 
gen dieser falschen Durchführung liegen auf der Hand, zumal es zum Zeitpunkt 
der Testung noch deutlich mehr Förder- bzw. Sonderschulen gab und die In- 
klusion erst später umgesetzt wurde. Eine aus dem falschen Testergebnis resul- 
tierende Beschulung in einer Förderschule Schwerpunkt Lernen hätte eine mög- 
liche Unterforderung des Kinds bedeuten können. 

Lipsius et al. (2008, S. 115) resümieren die Notwendigkeit einer genauen 
und akribischen Vorbereitung vor einer Anwendung mit dem HAWIK-IV. 
Insbesondere eine übermäßige Hilfestellung kritisieren die AutorInnen und zu 
Recht wird angemerkt, dass es „ein Fehler [ist] zu glauben, dass ein höherer 
Testwert auch besser für das Kind ist“ (ebd., S. 115). Neben speziellen Hinwei- 
sen für eine angemessene Durchführung des HAWIK-IV (z.B. die besonderen 
Umkehr- und Abbruchregeln beachten) werden auch allgemeine Hinweise für 
Testdurchführungen gegeben, z.B. die intensive Beschäftigung mit dem Test- 
handbuch, die Teilnahme an Schulungen, das Üben mit Hilfe von Probe-Pro- 
bandInnen und das Auswerten von Probe-Testungen (ebd., S. 116). 

Obwohl Eser (2007) wie Lipsius et al. (2008) unzulässige Hilfen während der 
Testdurchführung ablehnen, sollte die Testdurchführung z.B. einer Testbatte- 
rie, aus der ein g-Maß resultiert, einen den Prüfungssituationen analogen Nach- 
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teilsausgleich bieten. Auch wenn Eser (2007, S. 10) die Durchführung einer 
Testbatterie unter Anwendung der ganzen Kunst und berufsständischen Ethik 
der Leistungs- und PsychodiagnostikerInnen fordert, widerspricht sich dieser 
Wunsch nach einem Nachteilsausgleich während der Testdurchführung mit der 
berufsständischen Ethik der PsychodiagnostikerInnen (Leibniz-Zentrum für 
Psychologische Information und Dokumentation, 2017), denn die Kunst derje- 
nigen, die normierte standardisierte Tests anwenden besteht darin, die Durch- 
führungsregeln nach den Vorgaben anzuwenden und nicht darin zu entschei- 
den, was ein Nachteilsausgleich während einer Testdurchführung darstellt. Hier 
deutet sich eine weitere Schwierigkeit für Tests anwendende Sonderpädagogln- 
nen an: einerseits haben sie es mit Kindern mit besonderen Bedürfnissen zu 
tun, die evtl. eine dem Kind angepasste Testdurchführung notwendig machen, 
andererseits sind aus einem normierten Test resultierende Testergebnisse nur 
interpretierbar, sofern die Durchführungsobjektivität gewahrt bleibt. Das Di- 
lemma besteht nun darin, dass Autoren wie Eser (2007) und andere (Bund- 
schuh, 2010) für Kinder mit sonderpädagogischem Bedarf eine angepasste und 
besondere Testdurchführung attestieren, aber nicht beschreiben, wie diese aus- 
zusehen hat. Auch der von Eser (2007, S. 10) geforderte Nachteilsausgleich 
während der Testdurchführung wird nicht konkretisiert. So bleibt es bei dem 
Dilemma, dass einerseits für besondere Kinder besondere Behandlungen gefor- 
dert werden bei der Anwendung von normierten Tests, die humanistisch for- 
muliert wenig Spielraum für Widerspruch bieten, andererseits es zu den Regeln 
der Kunst gehört, die Durchführungsobjektivität zu wahren. Auch wenn Eser 
einen Nachteilsausgleich in Testsituationen nicht näher erläutert, verweist er 
zumindest auf Konkretisierungen für Nachteilsausgleiche in Prüfungssituatio- 
nen (ebd., S. 10), wie sie von Keune & Frohnenberg (2004) beschrieben werden. 
Doch die von den Autorinnen beschriebenen Nachteilsausgleiche beziehen sich 
auf den beruflichen Prüfungskontext (z.B. modifizierte Berufstests auf Grund 
einer Blindheit oder Hörbeeinträchtigung), nicht auf mögliche Modifikationen 
bei der Durchführung beispielsweise des HAWIK-IV, der K-ABC oder ähnli- 
cher standardisierter Intelligenztests. 

Dabei stellt sich die Frage, ob es wirklich so schwierig ist, die an sich berech- 
tigte Forderung nach einer angepassten Berücksichtigung von besonderen Kin- 
dern zu verwirklichen. Zwei kurze Beispiele sollen verdeutlichen, wie zulässig 
die Testsituation angepasst werden könnte, ohne die Durchführungsobjektivität 
zu verletzen: 


e Ein vor dem Krieg geflüchtetes und niemals beschultes syrisches Kind mit 
Verdacht auf durchschnittliche bis überdurchschnittliche Intelligenz soll 
mit der KABC-II getestet werden. Im Subtest Wort- und Sachwissen kann 
das Kind auf die Frage Wo begann die Renaissance nicht auf eines der sechs 
Auswahl-Landkarten zeigen, welches die Gegend um Rom zeigt. Ein unzu- 
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lässiger Nachteilsausgleich könnte sein, dass die in Deutsch gestellte Frage 
auf z.B. hocharabisch übersetzt wird und das Wort Renaissance” erläutert 
wird, da das Kind noch nie in einer Schule war. Jedes darauffolgende Ergeb- 
nis könnte nicht verwertet werden, da die Kinder aus der Normstichprobe 
nicht die Frage auf hocharabisch gestellt und auch nicht das Wort Renais- 
sance erklärt bekommen haben. Ein zulässiger Nachteilsausgleich wäre die 
ausschließliche Anwendung des SFI-Index (Sprachfrei-Index innerhalb der 
KABC-II) oder die Anwendung von nonverbalen Verfahren wie WNV oder 
SON-R 6-40. 

e Ein Kind mit Spastizität hat Schwierigkeiten im Umgang mit den Würfeln 
des Mosaik Tests des WISC-IV. Unter Zeitdruck soll das Kind nach einer 
Vorlage mit Hilfe von Würfeln die Muster nachbauen, was dem Kind 
schwerfällt, da es die Hände nicht so gut verwenden kann wie die Kinder 
aus der Normstichprobe ohne Spastizität. Ein unzulässiger Nachteilsaus- 
gleich könnte in der Verdoppelung oder gar im Weglassen der Zeitvorgaben 
sein. Doch diese Fairness ist nur scheinbar, denn die Testergebnisse sind 
ohne Wert, da das Kind unter zu stark veränderten Bedingungen getestet 
wurde im Vergleich zu den Kindern aus der Normstichprobe. Ein zulässiger 
Nachteilsausgleich könnte darin bestehen, dass lediglich Tests oder Subtests 
ohne Zeitvorgaben durchgeführt und zusammengestellt werden, so dass das 
Kind mit der Spastizität sich so lange Zeit nehmen kann, wie es benötigt 
oder möchte. Die Durchführungsobjektivität wäre gewahrt ebenso wie eine 
faire Testbedingung. 


Aus dem zweiten Beispiel wird deutlich, dass ein gut sortierter Testschrank mit 
einer größeren Auswahl an Testverfahren für eine heterogene Kindergruppe 
wie Kinder mit sonderpädagogischem Förderbedarf oder vermutetem Förder- 
bedarf den Kindern eher gerecht wird als die Testung mit einem einzigen Intel- 
ligenztest. In diesem Fall bestünde eine weitere Schwierigkeit bei der Anwen- 
dung von Intelligenztests im sonderpädagogischen Kontext darin, dass ange- 
messene Tests oft nicht zur Verfügung stünden. Im Zuge der Umsetzung der 
Inklusion kündigt sich hier ein Folgeproblem an. Da vermehrt Förderschulen 
aufgelöst und SonderpädagoglInnen auf Regelschulen” verteilt werden, um dann 
dort die Kinder mit sonderpädagogischem Bedarf zu betreuen, ist kaum anzu- 
nehmen, dass die Regelschulen sich jeweils einen gut sortierten Testschrank an- 
schaffen, da die Tests oft sehr teuer sind. Die neue KABC-II kostet inkl. Com- 


25 Es läge sogar die Vermutung nahe, dass eine Frage zur Renaissance nicht kulturfair wäre 
in diesem Fall. 

26 Ob Sonder- bzw. Förderschulen auch zu den Regelschulen gehören, soll hier nicht disku- 
tiert werden; Regelschulen bezeichnen im Kontext dieser Arbeit Schulen ohne Sonder- 
bzw. Förderschulen. 
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puterauswertung 1529 Euro (plus Steuern)”, die WISC-IV inklusive Software 
1513,50 Euro (plus Steuern), der differentialdiagnostisch kaum aussagekräftige 
SON-R 6-40 komplett 2076 Euro, obwohl als Ergebnis lediglich der General- 
faktor damit bestimmt werden kann und selbst der wegen veralteter Normen und 
veralteter Stimuli nutzlose SON-R 5%-17 ist noch zu kaufen für 2087 Euro”. 
Relativ günstig sind hingegen der CFT 1-R (118 Euro) und der CFT 20-R (232 
Euro). Die letztgenannten Tests sind in der Sonderpädagogik recht beliebt und 
es ist zu befürchten, dass in Zukunft ausschließlich mit diesen kurzen und ein- 
dimensionalen Tests getestet wird, denn diese sind im Gegensatz zu den kom- 
plexeren Testverfahren für die Regelschulen erschwinglicher. Können also an 
Regelschulen tätige SonderpädagogInnen nicht auf komplexe Intelligenztests 
zurückgreifen, z.B. durch Schaffung von Testleihen, und wird die Anfertigung 
von sonderpädagogischen Gutachten nicht auf das ganze Jahr verteilt, damit 
nicht alle zur gleichen Zeit die Tests leihen müssen, könnte eine Folge bei der 
Umsetzung der Inklusion eine reduzierte Intelligenzdiagnostik mit kurzen 
Tests wie denen der CFT-Reihe sein mit dem Ergebnis einer reinen Statusdia- 
gnostik ohne die Möglichkeit der Ableitung von Stärken und Schwächen aus 
Intelligenztests. 

Renner und Mickley (2015a) gehen unter anderem der Frage nach, ob die 
Testverfahren überhaupt die Möglichkeit anbieten, bei Kindern mit sensori- 
schen, körperlichen und/oder geistigen Beeinträchtigungen die Durchführungs- 
objektivität zu gewährleisten. Denn dazu müssten die Testmanuale detaillierte 
Hinweise geben, wie die Subtests unter Berücksichtigung von Beeinträchtigun- 
gen und Behinderungen objektiv durchzuführen sind. 23 Manuale deutschspra- 
chiger Intelligenztests wurden analysiert, ob die Tests auch dann valide durch- 
geführt werden könnten, sollten die Kinder über Zugangsfertigkeiten (ebd., 
S. 90) wie z.B. Hör- und Sehfähigkeit, Motorik und Sprache nur eingeschränkt 
verfügen. Es wurde also die Frage gestellt, ob ein in der sensorischen, motori- 
schen oder sprachlichen Fertigkeit eingeschränktes Kind noch auf Intelligenz 
getestet werden würde mit dem Intelligenztest, oder ob auf Grund der Beein- 
trächtigungen die Bedingungen zur Ermittlung einer Aussage über die Intelli- 
genz fehlen. Dazu müsste es Hinweise in den Testmanualen geben, ob die Tests 
für Kinder mit Beeinträchtigungen geeignet oder ungeeignet sind, ob in der 
Normierung Kinder mit Beeinträchtigungen berücksichtigt worden sind, ob 
bestimmte Instruktionen abgestimmt auf entsprechende Behinderungen vorlie- 
gen oder ob eine mangelnde Testfairness in der Interpretation beachtet werden 
muss (ebd., S. 91). Die deutliche Mehrheit der Intelligenztests haben weder bei 
der Konstruktion noch bei der Normierung noch bei den Vorgaben für die 


27 Alle Preise Stand 26.1.2016. 
28 Anmerkung: inzwischen nicht mehr erhältlich (28.7. 19). 
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Instruktionen beeinträchtigte Kinder berücksichtigt, obwohl 52 Prozent der 
Testmanuale die Anwendung bei Kindern mit Beeinträchtigungen nicht ausge- 
schlossen haben (ebd., S. 92) und sogar 30 Prozent der Verfahren ausdrücklich 
auf die Anwendung mit behinderten Kindern hinweisen. Die Berücksichtigung 
von Kindern mit Behinderungen stellt die Ausnahme in den Testverfahren dar. 
So gebe es z.B. Hinweise für Kinder mit dem Asperger-Syndrom in der IDS 
(Grob, Meyer & Hagmann-von Arx, 2009), einige Hinweise für Kinder mit ei- 
ner Intelligenzminderung in mehreren Verfahren, Hinweise für Kinder mit Tri- 
somie 21 in der IDS-P (Grob, Reimann, Gut & Frischknecht, 2013) und im 
WET (Kastner-Koller & Deimann, 2012). Besondere Hinweise zur Sicherung 
der Durchführungsobjektivität bei behinderten Kindern liegen ebenfalls nur in 
Ausnahmen vor: Für Kinder mit Sprachbehinderungen werden detaillierte Vor- 
gaben im SON-R 2%-7 (Tellegen, Laros & Petermann, 2007) und im SON-R 6- 
40 (Tellegen, Laros & Petermann, 2012) vorgegeben. In der Regel liegen Angaben 
zu den Instruktionen für Kinder mit Behinderungen nicht, in wenigen Ma- 
nualen eher vage vor (Renner & Mickley, 2015a, S. 96). Besonders kritisch mer- 
ken Renner & Mickley an, dass „bemerkenswerterweise“ einige Testverfahren 
reklamieren, für behinderte Kinder geeignet zu sein, diese aber in der Norm- 
stichprobe ausgeschlossen waren (ebd., S. 98). 

Selbst bei gutem Willen, angeeigneter Routine, intensiver Auseinanderset- 
zung und Vorbereitung würde die Anwendung von Intelligenztests durch Son- 
derpädagogInnen zusätzlich erschwert durch das weitest gehende Ignorieren 
von Kindergruppen bei der Normierung und Konstruktion der Tests, bei der 
Vorgabe von Instruktionen und bei der Ermittlung der Testgütekriterien, mit 
denen im sonderpädagogischen Kontext überproportional häufig gearbeitet 
wird: Kinder mit Sinnes-, Sprach-, kognitiven und motorischen Beeinträchti- 
gungen und Kinder mit Intelligenzminderungen. 

Mickley (2013) beschreibt die hohen Anforderungen an die Testanwen- 
derInnen, sollten Kinder im Vorschulalter getestet werden. Dies kommt im 
sonderpädagogischen Kontext häufig vor. Für diese Kinder ist ein besonders 
sensibles Vorgehen notwendig, so dass u.a. Kenntnisse in der psychologischen 
Gesprächsführung und eine routinierte Testpraxis Voraussetzung sind, um 
falsch negative oder falsch positive Aussagen aus Testergebnissen zu vermeiden 
(ebd., S. 2). Notwendig sind dazu auch Kenntnisse über die Sensitivitäts- und 
Spezifitätsraten der Tests, um die Aussagekraft aus Testergebnissen zu relativie- 
ren. Eine niedrige Spezifitätsrate würde z.B. bedeuten, dass Testergebnisse zu 
falsch positiven Zuordnungen führen können. Mickley beschreibt mögliche 
Schäden, die durch medizinisch Tätige (z.B. KinderärztInnen) aus der Anwen- 
dung von Entwicklungs- und Intelligenztests führen können, doch lassen sich die 
beschriebenen Problematiken auf die Anwendung entsprechender Tests durch 
SonderpädagoglInnen übertragen. Erläutert sei dies anhand des BUEVA-II (Es- 
ser & Wyschkon, 2012): Dieser Test soll Entwicklungsstörungen im Lern- und 
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Leistungsbereich erkennen, typische Fragestellungen, denen SonderpädagoglIn- 
nen nachgehen. Die angegebene Spezifitätsrate von 81,4 Prozent würde bedeu- 
ten, dass bei auffälligen Testergebnissen und einer angenommenen Prävalenz- 
rate von 2,5-5 Prozent für Lernstörungen mit 80-90 prozentiger Wahrschein- 
lichkeit dies zu falsch positiven Zuordnungen führen würde (Mickley, 2013, 
S. 4). Die Berücksichtigung schwacher Spezifitäts- bzw. Sensitivitätsraten führt 
zur logischen Konsequenz, dass normierte Testverfahren lediglich einen Teil- 
bereich der Diagnostik darstellen können, da die Testverfahren teilweise nur im 
Kontext aller psychosozialen Umstände und unter Einbezug von Beobach- 
tungssituationen und anderen Bausteinen der Diagnostik interpretiert werden 
können. Der Frage, ob die Berücksichtigung vieler Variablen in der sonderpäd- 
agogischen Diagnostik bei der Interpretation der Testergebnisse aus Intelligenz- 
tests tatsächlich eine Schwierigkeit für SonderpädagogInnen darstellt, soll im 
Rahmen dieser Arbeit nachgegangen werden. So ist z.B. anzunehmen, dass ein 
begrenzter Zeitrahmen bei der Erstellung eines sonderpädagogischen Gutach- 
tens der notwendigen komplexen diagnostischen Vorgehensweise gegenüber- 
stehen könnte. 

Die vielfältigen Schwierigkeiten bei der Anwendung von Intelligenztests 
werden im Rahmen dieser Arbeit dargestellt und untersucht. Hebenstreit (2000) 
ging der Frage nach, ob die banalste aller Tätigkeiten bei der Anwendung von 
Intelligenztests bereits eine Schwierigkeit darstellen könnte: dem Zusammen- 
zählen der Rohwertpunkte. Am Ende einer Gutachten-Ausbildung im Rahmen 
des Psychologiestudiums versicherten die Verfasser zwar, dass die Gutachten, 
in dessen Rahmen auch Intelligenztests durchgeführt worden sind, nach besten 
Wissen und Gewissen und unter Wahrung der berufsethisch festgeschriebenen 
Richtlinien angefertigt worden sind, doch sind nach Prüfung der Formulare 
bemerkenswert viele Rechenfehler festgestellt worden. Nach Auswertung von 
184 AID-Protokollen waren lediglich nur zwei Protokolle fehlerfrei. 12,5 Pro- 
zent machten Rechenfehler, 40,8 Prozent machten Fehler beim tabellarischen 
Abgleich. Im Mittel sind 11,3 Auswertungsfehler beim AID (Kubinger, 2009a) 
festgestellt worden. Kubinger (20095) regt unter Berücksichtigung von Heben- 
streits Untersuchung eine grundsätzliche Nutzung der computerisierten Aus- 
wertung an, sofern dies möglich ist (ebd., S. 46). Angemerkt sei jedoch, dass in 
den meisten Auswertungsprogrammen (z.B. IDS; WISC-IV; KABC-II) die 
Rohwertpunkte manuell gezählt werden müssen, bevor sie in das Auswertungs- 
programm eingetragen werden. Bei der Programmierung der Auswertungspro- 
gramme wäre zu überlegen, ob nicht die Möglichkeit sinnvoller wäre, Item für 
Item (wie z.B. in der ehemaligen Computerauswertung der K-ABC) einzutra- 
gen, um die Verrechnungssicherheit zu erhöhen. 

Hebenstreits Befunde stellen keinen Einzelfall dar und decken sich mit den 
weiter oben beschriebenen Ergebnissen von Alfonso et al. (1998) und Lipsius 
et al. (2008). 
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Abschließend sei eine Rezension zum HAWIK-II (Tewes, Rossmann & 
Schallberger, 1999) von Renner und Fricke (2001) erwähnt. Diese Rezension ist 
interessant, weil sie die Schwierigkeiten bei der Bewertung von Items exempla- 
risch und anschaulich verdeutlicht. Selbst bei sorgfältigster Vorbereitung stellt 
sich die Frage, ob die Testverfahren durch entsprechende Anweisungen die 
Voraussetzung für eine sichere Auswertung vorstellen. Anhand des HAWIK-II 
werden Beispiele verdeutlicht, die daran zweifeln lassen müssen. Insbesondere 
bei den Subtests aus dem Indice Sprachverständnis wird kritisiert, dass der Be- 
wertungsspielraum verbaler Antworten der Kinder zu groß ist und manche 
Vorgaben zu schwammig oder gar falsch sind. Im Untertest Allgemeines Ver- 
ständnis wird nach dem Vorteil von Zeitungen gegenüber dem Fernsehen ge- 
fragt. Antwortet das Kind aus Zeitungen erfährt man mehr erhielte es einen 
Punkt, antwortete es aus der Zeitung erfährt man mehr null Punkte. Im Wort- 
schatztest würde die Definition von anstrengend mit zwei Punkten bewertet 
werden, würde das Kind aufreibend oder zermürbend nennen, aber lediglich ei- 
nen Punkt bei erschöpfend oder ermüdend. Falsche Antworten werden als rich- 
tig bewertet wie z.B. Bundestagsabgeordnete schützen uns davor, in Kriege ver- 
wickelt zu werden oder wenn man das ABC kennt, weiß man, wie man Wörter 
schreibt (ebd., S. 464). Bei einigen Items wird das Wort warum umgangssprach- 
lich genutzt (fragt nach dem Grund), obwohl wozu (fragt nach dem Zweck) ge- 
meint war. 

Kinder mit einer hohen Sprach- und Bildungskompetenz wären an einigen 
Stellen benachteiligt, würden sie dem elaborierten Sprachcode den Vorzug ge- 
ben gegenüber den an einigen Stellen umgangssprachlich anmutenden Sprach- 
code der Manuale, nicht nur des Manuals des HAWIK-IN. So wird z.B. im 
schwersten Item des Subtests Rechnen der K-ABC folgendes im Testordner 3 
(o. S.) gefragt: „Vor dem Zoo verkauft diese Dame Tierplaketten. Wenn sie 600 
dieser Plaketten zum Preis von 40 Pfennig verkauft, wie viel Geld nimmt sie 
dann ein?“ Obwohl 240 DM die richtige Antwort sein soll, wäre als Antwort 
40 Pfennig ebenfalls richtig. 

Im WISC-IV lautet eine Frage: „Was sollst du tun, wenn ein Junge/Mäd- 
chen dich schlägt oder haut, der/das kleiner ist als du?“ (Petermann & Peter- 
mann, 2007, S. 263). Eine richtige Antwort mit einer vollen Punktzahl soll sein: 
„Gewalt löst überhaupt kein Problem.“ (ebd., S. 263). Wird nach einer Hand- 
lung gefragt (was tust du (...)) dürfte lediglich ein Slogan als Antwort nicht als 
völlig richtig gelten dürfen. Einer der derzeit aktuellsten mehrdimensionalen 
Tests, die KABC-IL, verwirrt AnwenderInnen bei den Erläuterungen des Sub- 
tests Rover u.a. mit den Worten: „Der Zweck besteht darin, der Tp [Testperson] 
bei Ausführung der Aufgabe zu helfen und dem Testleiter, die Antwort der Tp 
zu kontrollieren“ (Melchers & Melchers, 2014, Testordner 2, o. S.). 

Renner und Fricke (2001) beschreiben also Schwierigkeiten bei der Anwen- 
dung von Intelligenztests, die durchaus aktuell sind. Vielfältig können auch an- 
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dere Fehler in den Manualen attestiert werden. Beispielhaft sei hier angefügt, 
dass im Handbuch des HAWIK-IV (Petermann & Petermann, 2007) ein zur Er- 
klärung des Tests abgebildetes Testprofil eines Kinds falsche Angaben zum Ver- 
trauensintervall enthält (ebd., S. 87) oder in der KABC-II Subtestbezeichnun- 
gen falsch genannt werden oder in der Erstauflage der KABC-I in den Tabellen 
ein T-Wert in einen Statine falsch transformiert wurde. SonderpädagogInnen 
und andere TestanwenderInnen müssen sich aber sicher sein, dass alle Angaben 
fehlerfrei sind, denn das sich verlassen können auf die Angaben der Test- 
manuale ist notwendig, um sich zweifelsfrei vorbereiten zu können. 


2.4.2 Testanwendungen durch SonderpädagogInnen 
außerhalb Deutschlands 


Belege für Schwierigkeiten bei der Anwendung von Intelligenztests durch spe- 
cial education teachers, z.B. bezüglich der Durchführungsobjektivität, scheinen 
nicht vorhanden. Eine Suche über die Metadatenbank PubPsych” ergab zwar 
Treffer bei den Stichworten special education teacher intelligence (58), special 
education teacher intelligence test (18), teacher intelligence (532), teacher intelli- 
gence test (174) und special education teacher assessment (296), doch ergab die 
Analyse der abstracts keine Hinweise im Sinne der Fragestellung. 

Eine Suche nach vorhandener Literatur wäre müßig, würden special educa- 
tion teacher gar keine Intelligenztests durchführen, dem zur Folge gäbe es auch 
keine Literatur über Schwierigkeiten bei der Anwendung von Intelligenztests 
durch special education teachers. 

Es stellte sich also die Frage, ob special education teachers ähnlich institutio- 
nalisiert wie in Deutschland Intelligenztests durchführen (dürfen). 

Dazu wurden in ausgewählten Staaten ExpertInnen schriftlich per E-Mail 
befragt. Auch wenn sich eine Tendenz bei der Beantwortung der Frage abzeich- 
net, ob Intelligenztests durch special education teachers angewendet werden, 
wird nicht der Anspruch erhoben, dies für jeden der 194-207 Staaten der Erde 
untersucht zu haben, da dies den Rahmen der eigentlichen Untersuchung über- 
steigt. 

Eine Anfrage an einen englischen Experten soll hier beispielhaft vorgestellt 
werden, Anfragen an ExpertInnen anderer Staaten wurden entsprechend geän- 
dert (z.B. statt english danish etc.). Auf Englisch wurden ExpertInnen in Belgi- 
en, Dänemark, Großbritannien, Kanada, Niederlanden, USA und Schweden, 
auf Deutsch in Österreich und der Schweiz befragt: 


29 Abfrage am 1.9.16. 
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I examine difficulties in dealing with intelligence tests by special education teachers 
(teachers who teach mentally handicapped, mentally retarded, behavioral problems, 
speech-impaired and physically disabled children). 


In this study, Ihope for your help in answering these questions: 


1. Do english special education teachers also perform intelligence tests (for example 
WISG; CFT; SON etc.)? 

2. If so, what difficulties are well known in the procedure of intelligence tests, 
which are performed by special education teachers? 
Are there any studies on these difficulties? 

4. Is the performance of intelligence tests by special education teachers regionally 
differently regulated in England/Wales/Scotland? 

5. When special education teachers do not perform intelligence tests, then who is 


leading intelligence tests for children with special needs? 


Ein Beispiel für auf Deutsch gestellte Fragen (hier an ein Sonderpädagogisches 
Zentrum in Österreich): 


Im Rahmen einer wissenschaftlichen Studie untersuche ich die Schwierigkeiten von 
deutschen SonderpädagogInnen bei der Durchführung von standardisierten Test- 
verfahren (z.B. Intelligenztests, Persönlichkeitstests etc.). 

Gerne möchte ich im Rahmen dieser Studie klären, wie die Durchführung von 


Testverfahren außerhalb Deutschlands durch SonderpädagoglInnen geregelt ist. 


1. Ist das Berufsbild der österreichischen SonderpädagogInnen in etwa mit dem der 
deutschen vergleichbar? 

2. Führen österreichische SonderpädagogInnen auch Intelligenz- und Persönlich- 
keitstests durch (z. B. WISC-IV; SON; CFT; K-ABGC (...)) 
Wenn Ja, welche z.B.? 

4. Wenn Ja, sind Schwierigkeiten bei der Durchführung der Testverfahren bereits 
untersucht worden? 

5. Wenn Nein, wer führt Intelligenz- und Persönlichkeitstests durch, sollten diese 
hilfreich eingesetzt werden bei der Feststellung eines sonderpädagogischen För- 
derbedarfes? 


Angemerkt sei, dass in einem frühen Stadium dieser Arbeit nicht nur die An- 
wendung von Intelligenztests, sondern allgemein die Anwendung normierter 
standardisierter Testverfahren untersucht werden sollte. Aus diesem Grund 
wurde auch nach der Anwendung von Persönlichkeitstests gefragt. Dies beein- 
trächtigt jedoch nicht die Antworten bezüglich der Anwendung von Intelli- 
genztests, es wurden lediglich alle Aussagen zu den Persönlichkeitstests außen 
vorgelassen. 
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Die Gründe für die Reduzierung in dieser Forschungsarbeit auf Intelligenz- 
tests ohne Einbezug anderer normierter standardisierter Tests liegen zum einen 
in der (kontroversen) Bedeutung von Intelligenztests in der Sonderpädagogik, 
zum anderen in der Heterogenität von normierten standardisierten Testverfah- 
ren. So spielt die Durchführungsobjektivität eine sehr viel geringere Rolle bei 
den Persönlichkeitstests. 

Zunächst gibt Tabelle 2 eine Übersicht über die Anfragen in den verschie- 
denen Staaten (die Zahlen beziehen sich jeweils auf eine E-Mail an eine Mitar- 
beiterIn, die laut Beschreibungen auf den entsprechenden Homepages geeignet 
zur Beantwortung der Fragen erschienen’”): 

Im Fokus stand die Frage, ob special education teachers Intelligenztests an- 
wenden und wenn ja, ob mit der Anwendung verbundene Schwierigkeiten be- 


kannt sind. 


Tabelle 2. Anfragen und Rücklauf zur Anwendung von Intelligenztests durch special 
education teachers. 


c 
© 
$ E 
x c F- 

5 = 5 3 £ S N 5 

` re: 3 g È 

o S0 © 

2 0 5 2 3 5 35% 53 

Z +} [a] 07} [0} > x 07} jo] Fr 
Universitäts- 60 8 34 60 20 6 6 8 202 
mitarbeiterInnen 
Verbände 2 1 8 141 3 25 
Schulen mit sonderpäd. 35 37 72 
Ausrichtung 
Sonderpäd. Zentren 25 25 
(Österreich) 
sonstige { T 
Total 62 8 34 60 56 51 17 12 25 325 
Rücklauf (Antworten 19 3 15 15 10 7 7 11: 2 89 
in Form einer E-Mail) 31% 38% 44% 25% 18% 14% 41% 92% 8% 27% 


30 Die angeschriebenen Personen wurden personalisiert angeschrieben, also nicht allgemein 
z.B. mit „Dear Sir“, sondern mit Titel und Namen. Eine Kopie der Betreuungsbescheini- 
gung durch die Uni Flensburg war als Anhang beigefügt. Der Zweck der Studie wurde 
kurz erläutert. 
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2.4.3 Überblick über die Anwendung von Intelligenztests 
durch special education teachers außerhalb Deutschlands 


In den USA wird die Anwendung von Intelligenztests durch special education 
teachers übereinstimmend verneint. Interessant ist der mehrfach genannte Hin- 
weis darauf, dass komplexe Intelligenztests, deren adaptierte Versionen ins 
Deutsche auch von SonderpädagogInnen angewendet werden (z.B. WISC-IV; 
KABC-I), in den USA lediglich von besonders qualifizierten Fachleuten durch- 
geführt werden dürfen. Diese Intelligenztests werden als Level-C Tests bezeich- 
net und es ist eine doctoral level psychologists Qualifikation notwendig. In den 
von Pearson festgelegten Anforderungen (Pearsonassessment, 2019) ist unter 
anderem festgelegt, dass eine besondere Befähigung (high level) vorliegen muss, 
um die Anwendung der zu dieser Kategorie gehörenden Tests durchführen zu 
dürfen. Dies kann ein Doktortitel in psychology sein, aber auch in education 
oder fortlaufend wahrgenommene Fortbildungen unter der Aufsicht entspre- 
chender Fachverbände oder eine Lizensierung zur Anwendung. Diesen Richt- 
linien ist nicht zu entnehmen, ob special education teachers ebenfalls berechtigt 
sind, sofern sie sich qualifiziert haben oder über einen Doktortitel verfügen. 

Allen Antworten auf meine Anfrage ist gemein, dass die Anwendung von 
Intelligenztests durch PsychologInnen durchgeführt wird und die Vorausset- 
zungen für die Anwendung von komplexen Intelligenztests rigide geregelt ist. 

In Kanada fielen die Antworten kurz und eindeutig aus, Intelligenztests 
werden dort von PsychologInnen durchgeführt, nicht von special education 
teachers. 

Ebenso in Großbritannien”, wo für die Anwendung von komplexen Intelli- 
genztests Educational Psychologists angeführt werden. Jedoch führen z. B. learn- 
ing support teachers Übersichtstests wie die Raven’s Progressive Matrices (dt. 
Version: Raven, Raven & Court, 2010) durch, wenn es um den Übergang von 
Schulformen oder Lernstörungen geht. Studien zu Schwierigkeiten im Umgang 
mit diesen eindimensionalen Tests, welche einen Hinweis auf den g-Faktor ge- 
ben, können nicht genannt werden. 

Alle Antworten von Fachleuten aus Schweden und Österreich sind ebenfalls 
eindeutig und kurz. Einem special education teacher (in Österreich ebenfalls 
SonderpädagogIn genannt) ist es nicht erlaubt, Intelligenztests anzuwenden, 
diese werden ausschließlich von PsychologInnen durchgeführt. 


31 Anmerkung T.J.: Die Ergebnisse der Befragungen beruhen auf privaten Kommunikatio- 
nen und werden deshalb im Folgenden nicht als zitierfähige Quelle benannt; auch da von 
einem stillschweigenden Einverständnis zur Veröffentlichung der Antworten auf die ge- 
stellten Fragen nicht ausgegangen werden kann. 

32 Es wurden Fachleute in England, Wales und Schottland angeschrieben, nicht in Nord- 
irland. 


65 


Nach Auswertung aller Rückmeldungen aus Dänemark ist die Antwort ein- 
deutig auf die Frage, ob special education teachers Intelligenztests anwenden. 
Dies ist den PsychologInnen vorbehalten. 

Den Niederlanden und Belgien ist gemeinsam, dass für die Anwendung von 
Intelligenztests neben PsychologInnen auch OrthopädagogInnen (orthopeda- 
gogists) zuständig sind, deshalb werden die Rückmeldungen aus diesen beiden 
Staaten gemeinsam dargestellt. Obwohl OrthopädagoglInnen sich nicht als 
Lehrkräfte verstehen, studieren sie z.B. an der Genter Universität an der Faculty 
of Psychology and Educational Sciences. 

Ein vergleichbares Studium in Deutschland ist nicht bekannt. Obwohl sich 
die Tätigkeitsfelder von OrthopädagoglInnen und deutschen SonderpädagoglIn- 
nen ähneln, wird großen Wert daraufgelegt, dass OrthopädagogInnen keine 
Lehrkräfte sind. In einer privaten E-Mail wird erklärt, dass geschichtlich der 
Begriff Orthopädagogik nach dem zweiten Weltkrieg aus dem Begriff Heil- 
pädagogik entstanden ist, da das Wort Heil negativ konnotiert war. Trotz der 
Abgrenzung zu der Tätigkeit einer Lehrkraft liegen Parallelen zwischen deut- 
schen SonderpädagogInnen und OrthopädagoglInnen vor. Die meisten Schulen 
for special education haben their own orthopedagoog or psychologist that can per- 
form intelligence tests (private Kommunikation, 2015). Übereinstimmend wird 
die Anwendung von Intelligenztests durch special education teachers verneint 
(damit sind nicht die OrthopädagogInnen gemeint, sondern im sonderpädago- 
gischen Kontext arbeitende Lehrkräfte). Eine Ausnahme stellt der NIO Test dar 
(Van Dijk & Tellegen, 2004), ein kurzer Übersichtstest, der gelegentlich vor 
Schulformwechseln auch von Lehrkräften durchgeführt werden soll. 

Der Fragenkatalog an Fachleute aus der Schweiz wurde um die Frage erwei- 
tert, worin der Unterschied zwischen schweizer Sonderpädagogen und schwei- 
zer Heilpädagogen besteht. Fragen dieser Art sind wichtig, um eine falsche Ver- 
gleichbarkeit auf Grund identischer Begriffe mit unterschiedlichen Bedeutungen 
zu vermeiden. Sonderpädagogik in der Schweiz kann lediglich an der Universi- 
tät Zürich studiert werden. Diese wissenschaftliche Ausbildung ist nicht ver- 
gleichbar mit dem deutschen Studiengang Sonderpädagogik. SonderpädagoglIn- 
nen in der Schweiz sind WissenschaftlerInnen und nicht Regelschullehrkräfte. 
Mehrfach wird jedoch eine Vergleichbarkeit zwischen deutschen Sonderpäd- 
agogInnen und schweizer HeilpädagogInnen genannt sowie eine synonyme 
Verwendung der Berufsbezeichnungen Sonderpädagogln (eher reformierte Ge- 
biete; ein aus Deutschland übernommener Begriff) und HeilpädagogIn (eher 
katholische Gebiete). Kinder mit sonderpädagogischem Förderbedarf werden 
unterrichtet von schulischen Heilpädagogen (SHP). Das sonderschulpädagogi- 
sche System in der Schweiz wird durch das föderalistische System und die Viel- 
sprachigkeit als sehr heterogen beschrieben, was die Ableitung einer Tendenz 
aus den Fragen erschwert. Es wird von einigen Fachleuten nicht ausgeschlossen, 
dass auch Sonder-/HeilpädagogInnen Intelligenztests durchführen, doch wird 
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dies nicht als Bestandteil der Stellenbeschreibung von Sonder-/HeilpädagoglIn- 
nen beschrieben. Hier werden übereinstimmend (Schul-)PsychologInnen ge- 
nannt. Die Anwendung von Intelligenztests durch Sonder-/HeilpädagogInnen 
wird z.B. im Zusammenhang mit Ausbildungs- und Forschungszwecken ge- 
nannt, aber für den beruflichen Alltag unüblich. 

Folgendes Fazit kann gezogen werden: In einer nicht repräsentativen An- 
frage an 325 Fachleuten aus 9 Staaten wurde nach der Anwendung von Intelli- 
genztests durch die deutschen SonderpädagogInnen vergleichbare Berufsgrup- 
pen gefragt. Diese werden zusammengefasst hier als special education teachers 
bezeichnet. Im Fokus stand die Frage, ob special education teachers Intelligenz- 
tests durchführen und wenn ja, ob damit verbundene Schwierigkeiten und ent- 
sprechende Untersuchungen zu evtl. Schwierigkeiten bekannt sind und be- 
nannt werden können. 

Obwohl diese Fragestellung nicht im Zentrum des Interesses der eigentli- 
chen Untersuchung dieser Arbeit steht, ist der Umweg über diese Befragung 
hilfreich, um zu erklären, warum es keine Befunde zu Schwierigkeiten in der 
Anwendung von Intelligenztests durch special education teachers zu geben 
scheint. Entsprechende Befunde gibt es z.B. zu Schwierigkeiten in der Anwen- 
dung von Intelligenztests durch PsychologInnen (Slate & Jones, 1990; Slate 
et al., 1992; Alfonso et al., 1998). 

Es gibt keine Befunde zu Schwierigkeiten bei der Anwendung von Intel- 
ligenztests durch special education teachers außerhalb Deutschlands, weil spe- 
cial education teachers keine Intelligenztests ähnlich institutionalisiert wie in 
Deutschland durch SonderpädagogInnen durchführen. Im sehr moderaten Um- 
fang werden die Anwendungen von Intelligenztests erwähnt, teils eher zu Schu- 
lungszwecken. Dreimal wird die Anwendung von kurzen und eindimensionalen 
Intelligenztests durch special education teachers bzw. teachers beim Übergang 
von Schulformen erwähnt. In Belgien und den Niederlanden führen neben den 
PsychologInnen auch Orthopädagoglnnen Intelligenztests durch, doch ist die- 
ses Berufsbild nicht mit deutschen SonderpädagoglInnen vergleichbar. Durch 
die nicht repräsentative Anfrage an Fachleute und die Beschränkung auf einige 
Staaten wird nicht der Anspruch erhoben, den Nachweis dafür zu erbringen, 
dass special education teachers keine Intelligenztests wie in Deutschland durch- 
führen und dementsprechend keine Schwierigkeiten über die Anwendung in 
Form von Untersuchungen vorliegen können. Es gibt jedoch deutliche Hinwei- 
se als Schlussfolgerung aus dieser Befragung, die für diese Annahme sprechen 
und keine Hinweise, die dagegen sprechen. 
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2.5 Intelligenztests 


In diesem Kapitel sollen Intelligenztests vorgestellt werden, die von Sonder- 
pädagogInnen angewendet werden. Die Intelligenztests basieren auf hierarchi- 
schen Intelligenzmodellen und können unterteilt werden in ein- und mehr- 
dimensionale Testverfahren. Bei den eindimensionalen Testverfahren wird in 
der Regel ein Gesamtwert ermittelt, welcher auf das intellektuelle Potential des 
Kinds im Vergleich mit gleichaltrigen Kindern hinweist. Bei mehrdimensiona- 
len Verfahren können zusätzlich auf individueller Ebene Stärken und Schwä- 
chen des Kinds ermittelt werden, gerade diese Stärken-Schwächen Analysen 
sind interessant zur Ableitung pädagogischer Maßnahmen. 

Neben der Einteilung von Intelligenztests in ein- und mehrdimensionale 
Verfahren können Unterschiede in der Art der Durchführung beschrieben wer- 
den. Es gibt Verfahren, die ausschließlich verbal durchgeführt werden müssen 
und Verfahren, die darüber hinaus auch nonverbal durchgeführt werden kön- 
nen. Nonverbale Verfahren sind interessant bei der Testung von Kindern mit 
Hörbeeinträchtigungen und Kindern, die Deutsch nicht oder nicht gut spre- 
chen (z.B. geflüchtete Kinder). Nonverbale Intelligenztests testen allerdings 
nicht die nonverbale Intelligenz, sondern ermöglichen die Erfassung von Intel- 
ligenz(teilen) ohne Anwendung der Sprache. 

Einige tabellarisch aufgeführte Basisinformationen (Angaben über Testgüte- 
kriterien, Preise, Dauer, Altersbereich, siehe Tabelle 4, Tabelle 5 und Tabelle 6) 
und Empfehlungen zur Nützlichkeit für häufig auftretende Fragestellungen 
(siehe Tabelle 8) beenden die Vorstellung ausgewählter Testverfahren. 

Die Qualität psychometrischer Testverfahren wird über dessen Testgütekri- 
terien ermittelt. Sind nach Prüfung der Testgütekriterien die Werte nicht ak- 
zeptabel, sollte der Test nicht angewendet werden, da evtl. der Test weder exakt 
(reliabel) misst noch bestimmt werden kann, was der Test eigentlich misst (Va- 
lidität). Zentral bei der Darstellung von Testverfahren ist also die Beschäftigung 
mit den Testgütekriterien, die zu Beginn aufgeführt werden. 

Die Vorstellung von TestleiterInneneffekten schließt das Kapitel ab und ist 
als Darstellung möglicher Fehlerquellen sowohl interessant bei der Anwendung 
von Intelligenztests als auch bei der Beantwortung des Fragebogens, auf den 
sich diese Untersuchung maßgeblich bezieht. Somit ist die Darstellung von 
TestleiterInneneffekten das Bindeglied zwischen dem theoretischen und dem 
methodischen Teil. 
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2.5.1 Testgütekriterien 


Testgütekriterien werden unterschieden in Haupt- und Nebengütekriterien. 
Meist werden in den Manualen der Intelligenztests die Werte der Hauptgüte- 
kriterien beschrieben. 


2.5.1.1 Hauptgütekriterien 


Von den Hauptgütekriterien Objektivität, Reliabilität und Validität ist die Ob- 
jektivität von besonderer Bedeutung, da insbesondere die Durchführungs- und 
Auswertungsobjektivität starke Bezüge zu dieser Untersuchung haben. 

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unab- 
hängig von Testleiter, Testauswerter und von der Ergebnisinterpretation misst“ 
(Moosbrugger & Kelava, 2007, S. 8). Ist ein Test nicht objektiv durchführbar, ist 
die Prüfung der anderen Testgütekriterien obsolet, denn es kann weder exakt 
noch gültig getestet werden, wenn die ermittelte Leistung der ProbandIn von 
der Person abhängig ist, die das Kind testet. Das Testgütekriterium Objektivität 
wird unterteilt in Durchführungs-, Auswertungs- und Interpretationsobjekti- 
vität. 

Die Durchführungsobjektivität ist gegeben, wenn der Test dermaßen stan- 
dardisiert vorliegt, dass es für den Testenden keine Zweifel über die Durchfüh- 
rung gibt. Sind z.B. die Durchführungsregeln nicht eindeutig oder gar nicht 
beschrieben, würde die Durchführung im Ermessen des Testenden liegen. So ist 
z.B. bei einigen Subtests der KABC-I nicht eindeutig beschrieben, ob nach 
Ablauf der Zeitgrenze ein Hinweis über den bevorstehenden Ablauf der Zeit 
gegeben werden darf oder nicht. Kinder, die einen Hinweis über das nahende 
Ende der Zeitbegrenzung erhielten, hätten einen Vorteil vor den Kindern, die 
keinen Hinweis erhielten. Je mehr sich die Art und Weise, wie der Test durch- 
geführt wird von Testdurchführung zu Testdurchführung unterscheidet, umso 
mehr ist die Durchführungsobjektivität gefährdet. Aufgabe der TestautorInnen 
ist es, die Durchführung eindeutig zu beschreiben, Aufgabe des Testenden ist es 
jedoch, die Durchführungsobjektivität durch exaktes Einhalten der Regeln zu 
wahren. Auf beiden Seiten kann die Durchführungsobjektivität gefährdet wer- 
den. Beide Seiten stehen in einer Wechselwirkung, denn ist die Durchführung 
eines Tests nicht eindeutig standardisiert beschrieben, wird es den Testenden 
schwerfallen, die Durchführungsobjektivität zu wahren. Im Idealfall ist ein Test 
so standardisiert beschrieben, dass die TesterIn vollkommen austauschbar 
wäre. Eine relativ vollkommene Durchführungsobjektivität könnte vorliegen, 
wenn der Test von einem Computer durchgeführt werden würde. 

Die Auswertungsobjektivität beschreibt die Ermittlung von Testergebnissen 
unabhängig davon, welche Person ein Kind testet. Auf die Frage, was Wut und 
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Freude gemeinsam haben aus dem WISC-IV (Subtest Gemeinsamkeiten Fin- 
den) könnte ein Kind mit Tränen antworten. Es ist möglich, dass diese Antwort 
des Kinds mit einem Punkt oder mit null Punkten bewertet wird. Beides wäre 
korrekt, denn die Antwort Tränen ist im Antwortkatalog möglicher Antworten 
im Handbuch nicht enthalten, daraus könnte die Bewertung mit null Punkten 
resultieren. Allerdings gibt es auch übergeordnete Antwortrichtlinien, die einen 
Spielraum bei der Bewertung lassen. Da es sowohl Wuttränen als auch Freu- 
dentränen gibt, wäre die Vergabe von einem Punkt zulässig. 

Die Bewertung in Abhängigkeit vom Testenden wird noch deutlicher bei 
dem Subtest Wortschatz der KABC-II. Kinder sollen Gegenstände benennen, 
die auf Bildern zu sehen sind. Spricht ein Kind nicht Deutsch, benennt die Ge- 
genstände aber in einer anderen Sprache (z.B. arabisch), kann der Testende 
dies als richtig bewerten, sofern der Testende ebenfalls die Sprache spricht und 
ermessen kann, ob das vom Kind benannte Wort (z.B. in Arabisch) korrekt das 
Abgebildete widergibt. Überspitzt formuliert bedeutet dies, dass die Intelligenz 
des Kinds von den Sprachkenntnissen des Testenden abhängt. Während bei der 
Wahrung der Durchführungsobjektivität eindeutige und standardisierte Hin- 
weise die Durchführung regeln, wird zur Wahrung der Auswertungsobjektivität 
die Auswertung der ermittelten Ergebnisse durch eindeutige Vorgaben gefor- 
dert. Eine hohe Auswertungsobjektivität würde vorliegen, wenn mehrere Per- 
sonen unabhängig voneinander eine Testleistung auswerten müssten, das Maß 
der Übereinstimmung könnte mit dem Konkordanzkoeffizienten W nach Ken- 
dall (1962) dargestellt werden. 

Interpretationsobjektivität liegt vor, wenn Testergebnisse zu gleichen Inter- 
pretationen führen, unabhängig davon, wer die Ergebnisse interpretiert. Dies ist 
auf Stratum-III-Ebene (Generalfaktor der Intelligenz, siehe CHC-Modell) noch 
einfach zu gewährleisten, da im europäischen Raum entsprechend der Gauß- 
schen Kurve der Normbereich eines Gesamtwerts mit den mittleren 2/3 (der 
Ergebnisse einer Population) angegeben wird (z.B. bei der Skalierung IQ 85- 
115: 2/3 einer Population haben einen IQ von 85-115, bei der Skalierung 
T-Wert 40-60 usw.). Ein Gesamtwert wird also (unter Einbezug des Vertrau- 
ens- bzw. Konfidenzintervalls) mit dem Normbereich abgeglichen und das Ge- 
samtergebnis befindet sich im Normbereich oder nicht. Deshalb sind eindimen- 
sionale Testverfahren wie die der CFT-Reihe eindeutig zu interpretieren. Bei 
mehrdimensionalen Verfahren mit Ergebnissen auf Stratum-II-Ebene (sog. In- 
dice) ist dies weniger eindeutig, da die Ergebnisse der Indice im Kontext be- 
trachtet werden müssen. Interpretationsobjektivität läge für diesen Fall vor, 
wenn die Manuale eindeutige Hinweise auf die Inhalte der Indices geben, so 
dass Ergebnisse auf Stratum-II-Ebene beurteilt werden können. 

„Die Reliabilität gibt den Grad der Messgenauigkeit eines Messwerts an“ 
(Bühner, 2011, S. 60). Mit der Reliabilität wird gemessen, wie genau ein Test ein 
Konstrukt misst. Dabei ist zunächst ohne Interesse, um was für ein Konstrukt 
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es sich handelt. Ein Test, der vorgibt die Intelligenz zu messen, tatsächlich aber 
auf Grund von Konstruktionsfehlern eher die Konzentration misst, kann den- 
noch reliabel sein. Jedoch kann ein nicht reliabler Test weder die Konzentration 
noch die Intelligenz noch sonst irgendetwas messen. Der Grad der Messgenauig- 
keit wird mit dem Korrelationskoeffizienten geschätzt. Liegt dieser bei 1, so 
lägen keinerlei Messfehler vor, der Test wäre also ideal reliabel, liegt dieser bei 
0, so wäre der Test ein einziger Messfehler. Korrelationskoeffizienten sollten .7 
nicht unterschreiten. (Moosbrugger & Kelava, 2007, S. 11). 

Reliabilitäten werden üblicherweise in Retest-, Paralleltest-, Testhalbie- 
rungs-Reliabilität und Innere Konsistenz angegeben. 

Bei der Retest-Reliabilität (auch Stabilität) wird ein Test nach einer gewissen 
Zeit erneut durchgeführt und die Korrelation zwischen den Ergebnissen gemes- 
sen. Übungseffekte beeinflussen allerdings die Aussagekraft der Korrelation. 
Diese werden durch die Paralleltest-Reliabilität verringert, bei der die Korrela- 
tion zwischen den Ergebnissen aus zwei parallelen Testformen eines Tests er- 
mittelt wird. Dieses Verfahren „wird oftmals als Königsweg der Reliabilitäts- 
bestimmung bezeichnet“ (Moosbrugger & Kelava, 2007, S. 12). Es muss allerdings 
sichergestellt sein, dass die zwei parallelen Formen eines Tests auch tatsächlich 
gleich sind. 

Wird ein Test in zwei Hälften geteilt und die Korrelation der Teile berech- 
net, würde der Korrelationskoeffizient die Testhalbierungs-Reliabilität (auch 
Splithalf-Reliabilität) beschreiben. Hier ist zu beachten, dass ein Test gültiger 
werden würde, je länger er ist. Bei der Halbierung eines Tests wird er hypothe- 
tisch auf die ursprüngliche Länge gerechnet, damit der aus der Kürzung des 
Tests resultierende ungünstigere Wert ausgeglichen wäre. Wird jedes Item hin- 
gegen als eigenständiger Testteil betrachtet und die Korrelation zwischen den 
Items errechnet, würden diese Korrelationen die innere bzw. interne Konsis- 
tenz messen. Je höher die Testteile (bestehend also aus einzelnen Items) mitein- 
ander positiv korrelieren, desto höher ist die interne Konsistenz (ebd., S. 12). 
Die meist mit dem Cronbach-a-Koeffizienten (Cronbach, 1951) dargestellten 
Korrelationen sind nicht unumstritten, unter anderem, da seine Höhe stark ab- 
hängig ist von der Anzahl der Items und zu Verzerrungen führen könnte (Bortz & 
Döring, 2006). Dennoch wird die Reliabilität von Testverfahren häufig mit der 
inneren Konsistenz belegt, da der Aufwand überschaubar ist (Schermelleh- 
Engel & Werner, 2007). 

„Die Validität gibt an, ob der Test auch wirklich misst, was er zu messen be- 
ansprucht“ (Bühner, 2011, S. 61). Dieses Kriterium gilt als das wichtigste Kri- 
terium. Während eine hohe Objektivität und eine hohe Reliabilität die Vor- 
aussetzungen für einen guten Test sind, legitimiert die Validität letztlich die 
Gültigkeit des Tests. Bei einem nicht validen Test sind die Berechnungen aller 
anderen Testgütekriterien vergeudete Zeit. Die Validität erlaubt Rückschlüsse 
über ein Testergebnis mit Verhalten bzw. Fähigkeiten oder Fertigkeiten außer- 
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halb der Testsituation (Moosburger & Kelava, 2007). Beansprucht ein Test die 
Erfassung der Intelligenz, so sollte das Intelligenztestergebnis das intellektuelle 
Potential abbilden, über das die Testperson in allen Bereichen des Lebens ver- 
fügt, z.B. in der Schule. 

Die Validität wird meist mit der Inhalts-, der Konstrukt- und/oder der kri- 
terienbezogenen Validität angegeben. 

Im engeren Sinne gibt lediglich die Inhaltsvalidität an, ob ein Test misst, 
was er vorgibt zu messen (Murphy & Davidshofer, 2001), während die anderen 
Arten der Validitätsprüfung weniger messen, ob ein Test misst, was er vorgibt 
zu messen, sondern ob das gemessen wird, was mit Hilfe der Testkennwerte an 
abgeleiteten Aussagen postuliert wurde (Bühner, 2011, S. 61). 

Inhaltsvalidität liegt vor, wenn jedes Item repräsentativ das zu messende 
Konstrukt abbildet. Dies kann empirisch nicht bestimmt werden, deshalb wird 
die Inhaltsvalidität argumentativ begründet (z.B. durch Expertisen von Fach- 
leuten) oder die Inhaltsvalidität wird vernachlässigt, denn die argumentative 
Begründung der Inhaltsvalidität ist umstritten. Es ist methodisch schwierig und 
aufwändig, die Inhaltsvalidität zu belegen. Hartig, Frey und Jude (2007) kritisie- 
ren die fehlenden Versuche, die Validität eines Tests mit Hinweisen zur In- 
haltsvalidität belegen zu wollen und aus pragmatischen Gründen gleich auf die 
Konstrukt- und Kriteriumsvalidität auszuweichen. 

Im Zusammenhang mit der Inhaltsvalidität kann die wissenschaftlich um- 
strittene Augenscheinvalidität genannt werden, bei der auch Laien auf den ers- 
ten Blick der Zusammenhang zwischen Test und zu testendes Merkmal nach- 
vollziehbar scheint. 

Die Konstruktvalidität misst das theoretische Konstrukt des Tests, ob z.B. 
Sprachverständnis des WISC-IV tatsächlich Sprachverständnis, das Indice Gf der 
KABC-I tatsächlich die fluide Intelligenz misst usw. Allerdings sollten sich An- 
gaben zur Konstruktvalidität auf alle Konstrukte eines Tests beziehen. Die Me- 
thode der Wahl ist die Multitrait-Multimethod-Methode nach Campbell und 
Fiske (1959), infolgedessen die konvergente Validität (Korrelation verschiede- 
ner Tests, die etwas Identisches messen sollen, z.B. wurde die neue KABC-I 
mit verschiedenen bewährten Tests verglichen) und die Diskriminante Validität 
(Korrelation mit verschiedenen Tests, die etwas anderes messen sollen. In die- 
sem Fall sollte die Korrelation niedrig oder nicht vorhanden sein) ermittelt 
werden. Angaben zur konvergenten Validität über das Vergleichen von neuen 
mit bewährten Tests wäre dann zweifelhaft, wenn die Testgütekriterien der be- 
währten Tests nicht ausreichend wären. Würde z.B. die konvergente Validität 
im Rahmen der Konstruktvalidität über einen Vergleich eines neuen Tests mit 
dem vielfach und seit Jahrzehnten auch in der Sonderpädagogik eingesetzten 
Coloured Progressive Matrices (CPM; Raven, Raven & Court, 2010) verglichen 
werden, so würde mit einem Test verglichen werden, der durch die reduzierte 
Testung auf einen so kleinen Teilbereich keine gültigen Rückschlüsse auf die 
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Intelligenz zuließe (Renner & Mickley, 2015b, S. 72). Hinweise auf die konver- 
gente Validität durch einen Vergleich mit den CPM wären in diesem Fall ohne 
Nutzen. 

Eine weitere Möglichkeit im Rahmen der Konstruktvalidität ist die An- 
wendung konfirmatorischer Faktorenanalysen. Die damit ermittelte faktorielle 
Validität wird mit Hilfe von Faktorenanalysen ermittelt, die Zusammenhänge 
zwischen verschiedenen Tests untersucht. Einerseits können so homogene kon- 
struktnahe Inhalte, andererseits konstruktfremde Bereiche ermittelt werden 
(Moosbrugger & Kelava, 2007). 

Beim Vergleich des Testergebnisses mit Außenkriterien wird die Krite- 
riumsvalidität bestimmt. Wird das Testergebnis eines Intelligenztests mit dem 
Außenkriterium Studienerfolg korreliert, läge im Rahmen der Bestimmung der 
Kriteriumsvalidität eine Vorhersagevalidität (auch prognostische Validität, prä- 
diktive Validität) vor: das Testergebnis wird verglichen mit später erhobenen 
Kriterien. Würde mit zurückliegenden Kriterien verglichen werden (z.B. Intel- 
ligenztestergebnisse mit zurückliegenden Schulnoten), wäre die retrospektive 
Validität bestimmt. 

Würde hingegen die Testleistung weder mit zukünftigen noch mit zurück- 
liegenden Kriterien verglichen werden, läge die konkurrente Validität (auch 
Übereinstimmungsvalidität) vor, z.B. beim Vergleich der Intelligenztestleistung 
mit aktuellen Schultestleistungen. Einen Überblick über die Hauptgütekriterien 
ist in Abbildung 2 zusammengefasst. 


Abbildung 2. Hauptgütekriterien im Überblick. 
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2.5.1.2 Kritische Werte der Hauptgütekriterien 


Intelligenztests werden an ihren Testgütekriterien gemessen, diese sollten nach 
einer entsprechenden Prüfung akzeptabel bis gut oder sehr gut ausfallen. Es 
stellt sich also die Frage, was akzeptable bzw. nicht akzeptable Testgütekriterien 
sind. Obwohl Verlage und TestrezensentInnen ein Urteil über die in den Ma- 
nualen angegebenen Gütekriterien fällen, wird kaum der zu Grunde liegende 
Maßstab für diese Bewertung erläutert. 

Im Online Lehrbuch Medizinische Psychologie der Universität Freiburg 
(Schaefer, Goos & Goeppert, 2017, ohne Seitenangabe), muss ein guter Test fol- 
gende Testgütekriterien erfüllen: 


Objektivität: r= annähernd 1 
Reliabilität: r = .70-.95 
Validität: r = .30-.65 


Diese Angaben stehen stellvertretend für ähnliche Angaben anderer AutorIn- 
nen und verlocken dazu, diese Richtwerte als bindend zu betrachten. Doch die 
statische Betrachtung dieser Richtwerte berücksichtigt nicht die komplexen Be- 
dingungen, die zu den Angaben der Testgütekriterien führen. Es ist möglich, 
dass ein Test mit einer beobachteten Validität von r = .30 valider sein kann als 
ein Test mit einer Validität von r = .50 (Schmidt-Atzert & Amelang, 2012, 
S. 153). 

Grundlage für die Konstruktion der meisten Tests und aller Tests, die in 
dieser Arbeit genannt werden, sind die Annahmen der Klassischen Testtheorie 
(KTT), welche von Lord und Novick (1968) zusammenfassend beschrieben 
worden sind. Grundsätzlich wird angenommen, dass Messfehler die Reliabilität 
beeinträchtigen und dass das Testergebnis - in diesem Zusammenhang beob- 
achteter Wert genannt - nicht dem wahren Wert entspricht, oder genauer aus- 
gedrückt, entsprechen kann. Da keine perfekte Reliabilität von 1 für einen Test 
angenommen wird, ist also das Verhältnis zwischen wahrem und beobachtetem 
Wert bedeutungsvoll und somit die Berechnungen, die die notwendige Unter- 
scheidung zwischen wahrem und beobachtetem Wert berücksichtigen. 

Die weiter oben beschriebenen Richtwerte vermitteln den Eindruck, dass 
höhere Werte prinzipiell günstiger sind. Da es jedoch unterschiedliche Mess- 
methoden zur Bestimmung der Reliabilitäten gibt, sind die Bewertungen der 
Reliabilitätskoeffizienten von den Methoden zur Schätzung der Reliabilitäten 
abhängig (Schmidt-Atzert & Amelang, 2012, S. 137). Bei der Retest-Reliabilität 
hängt z.B. der Koeffizient von vermuteten Lerneffekten bei einer Testwieder- 
holung ab, aber auch von der Zeit, die zwischen Test und Retest liegt. Dies ist 
besonders von Bedeutung für kristalline Intelligenztests, da die kristalline Intel- 
ligenz umweltabhängiger als genetisch bedingt ist, wie z.B. bei der fluiden Intel- 
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ligenz. In einer Metaanalyse von Charter (2003) sind die Reliabilitäten für ver- 
schiedene Testarten untersucht worden. Für die Gruppe der Intelligenztests 
wurde ein arithmetisches Mittel von r = .80 bestimmt; die meisten Reliabilitäts- 
angaben’ lagen zwischen r = .71-.90. Auch diese Angaben dürfen nicht als 
Richtwerte interpretiert werden. Es sind lediglich die Retest-Koeffizienten, die 
aus Sicht der TestautorInnen zur Veröffentlichung der jeweiligen Tests aus- 
reichten. Schuerger und Witt (1989) stellten fest, dass die Retest-Reliabilität 
auch vom Alter des Kinds abhängt, je älter das Kind, desto höher fallen die Re- 
liabilitäten aus. 

Koeffizienten zur Bestimmung der internen Konsistenz können ebenfalls 
bei der Suche nach dem höchsten Wert in die Irre führen, z.B. würden sich bei 
einer Berechnung nach Cronbachs Alpha (Cronbach, 1951) die Reliabilitäten 
mit der Anzahl der Items erhöhen. Selbst wenn die Korrelationen zwischen den 
Items niedrig sind, wäre bei einer großen Anzahl von Items möglicherweise die 
Reliabilität akzeptabel. 

Auch die Validität ist von mehreren Faktoren abhängig. Schmidt-Atzert & 
Amelang (2012, S. 153) postulieren, dass die Höhe des Validitätskoeffizienten 
nur angemessen beurteilt werden kann, wenn die Bedingungen zur Ermittlung 
der Koeffizienten bekannt sind. Es besteht z.B. ein Zusammenhang zwischen 
der Reliabilität des Tests und dessen Validität, auch kann die Reliabilität des 
Kriteriums (an dem der Test validiert wird) die Validität beeinflussen (ebd., 
S. 154). 

Zumindest als Referenz dienen nach Schmidt-Atzert & Amelang (ebd., 
S. 164) die Angaben einer Metaanalyse, welche den Zusammenhang zwischen 
Intelligenztests und Validitätskriterien untersuchten (Schmidt & Hunter, 1998; 
Salgado, Anderson, Moscoso, Bertua, de Fruyt & Rolland, 2003; Kramer, 2009; 
Deary, Strand, Smith & Fernandes, 2007). Die korrigierten”' Werte sind für den 
Berufserfolg angegeben mit .51-.62., für den Ausbildungserfolg .53-.59, für das 
Bildungsniveau .56 und für den Schulerfolg .69. 

In den Niederlanden gibt es bereits seit der Jahrtausendwende das Test- 
beurteilungssystem COTAN (Committee On Test Affairs Netherlands) (Evers, 
2001a), welche u.a. Richtlinien zur Bewertung der Reliabilität eines Tests vor- 
schlagen. Für Tests für wichtige Entscheidungen auf der individuellen Ebene 
- dazu dürften die Intelligenztests gehören - wird eine Reliabilität von .80-.90 
mit ausreichend, von über .90 mit gut, Reliabilitäten von unter .80 werden als 
unzureichend beschrieben (Evers, 2001b). Evers (ebd.) sieht nach Einführung 
des COTAN-Testbeurteilungssystems eine kontinuierliche Verbesserung bei 


33 25 Prozent lagen unter, 25 Prozent über diesen Angaben. 

34 Werte sind für Varianzeinschränkungen sowie für die Reliabilität von Test und Kriterium 
bzw. für Reliabilität von Prädiktor und Kriterium korrigiert (Schmidt-Atzert & Amelang, 
2007, S. 164, Tabelle 2.24). 


75 


der Testkonstruktion, neuralgische Punkte der Testkonstruktionen sind die Be- 
reiche Normen und Kriteriumsvalidität. 

Problematisch an solch starren Beurteilungssystemen kann das Bemühen 
der TestautorInnen angenommen werden, nicht unter die kritischen Grenzen 
zu rutschen, z.B. eine Reliabilität von unter .80 zu berechnen. Obwohl die Au- 
torInnen der Testbeurteilungssysteme einräumen, dass es für diese Grenzen 
vergleichbar mit Cut-Off Werten keine schlüssigen Begründungen gibt (Kers- 
ting, 2006), führt ein derart starres System dazu, dass „der Koeffizient in ‚gut‘ 
und ‚böse‘ ohne Verstand, aber mit dem Taschenrechner gehorsam abgehakt, 
befolgt und verfolgt werde“ (ebd., S. 248). Die Fixierung auf die Einhaltung der 
Kennwerte könnte dazu führen, dass wider besseren Wissens Untersuchungs- 
pläne so gestaltet werden, dass nicht die Wahrscheinlichkeit für Erkenntnisse, 
sondern die Wahrscheinlichkeit für hohe Koeffizienten im Vordergrund stehen 
(ebd., S. 248). 

Das Testbeurteilungssystem (TBS-TK) des Diagnostik- und Testkurato- 
riums der Föderation Deutscher Psychologenvereinigungen (ZPID) erhebt den 
Anspruch, „das Beste aus verschiedenen Welten“ zu vereinen (Kersting, 2006, 
S. 250). Dazu gehört die Rezension eines Tests nach einem vorgegebenen Ras- 
ter, die Testbeurteilung durch zwei unabhängige RezensentInnen und eine 
Orientierung nach dem Deutschen Institut für Normung (DIN) 33430 (Deut- 
sches Institut für Normung, 2002), welche „Anforderungen an Verfahren und 
deren Einsatz bei berufsbezogenen Eignungsbeurteilungen“* formuliert (Kers- 
ting, 2006, S. 249). Eine Beurteilung ausschließlich nach nominellen Vorgaben, 
z.B. über die Höhe der Koeffizienten, ist in dem Testbeurteilungssystem nicht 
vorgesehen. Dabei werden die Testgütekriterien qualitativ bewertet, in voll, 
weitgehend, teilweise und nicht erfüllt. Die nach den Vorgaben des Testkurato- 
riums erstellten und frei zugänglichen Rezensionen werden bei der folgenden 
Beschreibung der Testverfahren bevorzugt zitiert, da eine nachvollziehbare und 
objektive Bewertung angenommen wird. Falls Rezensionen nach dem TBS-TK 
nicht vorliegen, werden freie Rezensionen und Bewertungen der Manuale und 
Testverlage nachrangig zitiert. 


2.5.1.3 Nebengütekriterien 


Zur Beurteilung psychologischer Tests werden weitere Gütekriterien beschrie- 
ben: 


35 DIN 33430 ist generell geeignet, normierte standardisierte Tests zu beurteilen. 
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Skalierung: Die Skalierung wird laut Bühner (2011, S.67) eher zu den 
Hauptgütekriterien gezählt. Die verwendeten Testwerte müssen geeignet 
sein, unterschiedliche Testergebnisse miteinander gültig vergleichen zu 
können. Bezogen auf Intelligenztests sollten Abstufungen in den Testergeb- 
nissen auch den Abstufungen in den intellektuellen Potentialen der Testper- 
sonen entsprechen. 

Normierung: Die Ergebnisse des Kinds müssen mit einem repräsentativen 
Durchschnitt altersgleicher Kinder verglichen werden können. Eine reprä- 
sentative und umfangreiche Normstichprobe vermindert die Gefahr von 
Verzerrungen beim Abgleich der vom Kind erzielten Rohwerte mit den 
Normdaten. Die absolute Größe der Normstichprobe ist dabei nicht aus- 
schlaggebend, denn sie muss im Zusammenhang mit der Anzahl der Norm- 
tabellen gesehen werden, die meist in Vierteljahresschritten unterteilt sind. 
Vor allem auf Grund der kontinuierlichen Zunahme der Intelligenz (Flynn- 
Effekt: Flynn, 1987) entsteht die Notwendigkeit, Intelligenztests mit aktuel- 
len Normdaten zu verwenden (Joel, 2017, S. 16). Moosbrugger und Höfling 
(2007) schlagen alle acht Jahre eine Überprüfung der Normdaten vor. 
Schmidt-Atzert & Amelang (2012, S. 164ff.) beschreiben die Normierung 
als Hauptgütekriterium. 

Testfairness: Ein Test sollte keine Kindergruppen benachteiligen, unabhän- 
gig vom sprachlichen und kulturellen Hintergrund, also das tatsächliche Po- 
tential ermitteln können. Würde z.B. ein geflüchtetes Kind aus Afghanistan 
nur wenige Wochen nach der Ankunft in Deutschland mit kristallinen (und 
meist sprachgebundenen) Subtests getestet werden, wäre die Benachteili- 
gung wahrscheinlich und die Testergebnisse nicht gültig ermittelt. So könn- 
ten Aufgabengruppen und einzelne Items des WISC-IV als ungeeignet für 
nicht deutschstämmige Kindergruppen diskutiert werden. 

Ökonomie: Sowohl die in das Testen investierte Zeit, die mit der Testung für 
den Testenden verbundenen Belastungen als auch die monetären Kosten 
(z.B. für den Test und die Testmaterialien) sollten in einem vertretbaren 
Verhältnis zum Nutzen stehen. Würden Sonderpädagoglnnen selten Kinder 
testen oder diagnostisch tätig sein, wäre es sinnvoll, wären die Testverfahren 
schnell und einfach zu lernen oder wiederzuerlernen. Zu dem Nebengüte- 
kriterium der Ökonomie gehört also auch die Praktikabilität der Verfahren. 
Zeitökonomisch (und auch im Sinne der Auswertungsobjektivität) wäre zu- 
dem die Auswertungsmöglichkeit mit einer Software. Der Blick auf eine 
schnelle Durchführung ist allerdings auch mit Gefahren verbunden. Die 
Anwendung günstig anzuschaffender und schnell durchzuführender Intelli- 
genztests wie der CFT1-R (118 Euro; Stand: 21.7.17) sind verlockend. Doch 
sollte die Tragweite einer durchgeführten Intelligenzdiagnostik und der da- 
mit auch verbundenen Gefahr einer Stigmatisierung bei der Ermittlung ei- 
ner schnellen und somit ökonomischen Testung bedacht werden. 
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e Nützlichkeit: Die Ergebnisse eines Tests sollten von Nutzen sein, z.B. eine 
Fragestellung beantworten können oder eine sinnvolle Ergänzung bei der 
Erkennung sonderpädagogischen Förderbedarfs darstellen. Gerade im päd- 
agogischen Bereich wäre eine mögliche Ableitung von individuellen Stärken 
und Schwächen neben dem Vergleich mit einer Altersgruppe wünschens- 
wert. Eher eindimensionale Verfahren sind zwar ökonomischer, erlauben 
aber kaum Hinweise über die Ermittlung eines Gesamtwerts hinaus (Joel, 
2017, S. 18). 

e Zumutbarkeit: Die Testsituation sollte eine zumutbare Belastung des zu Tes- 
tenden sein und sollte die aus dem Test resultierende Nützlichkeit nicht 
übertreffen. Die Belastung könnte z.B. reduziert werden, wenn die Items 
kindgerecht und spannend gestaltet sind. Kinder mit sonderpädagogischem 
Unterstützungsbedarf hatten oft Gefühle des Versagens in Leistungssitua- 
tionen. Kinder könnten bei der Anwendung eines Intelligenztests die Test- 
situation mit vorherigen Leistungssituationen assoziieren und negativ ge- 
stimmt sein, dies würde mit ansprechenden Stimuli vermieden. 

e Vergleichbarkeit: Vergleichbarkeit ist gegeben, wenn zwei parallele Formen 
eines Tests oder inhaltlich ähnliche Tests vorliegen. Dies könnte ein Vorteil 
bei einer Retestung sein. 

e Unverfälschbarkeit: Testpersonen sollten nicht die Möglichkeit der Manipu- 
lation von Testergebnissen haben, jedoch kann dies nicht ausgeschlossen 
werden, z.B. bei sozial erwünschtem Verhalten bei Persönlichkeitstests. 
Doch auch bei Leistungstests konnten Ziegler, Schmidt-Atzert, Bühner und 
Krumm (2007) Manipulationsmöglichkeiten während der Testung nach- 
weisen. Dennoch kann angenommen werden, dass bei standardisierten In- 
telligenztests die Möglichkeiten der Verfälschbarkeit generell gering sind. 

e Transparenz: Die Testanweisungen sollten für das Kind verständlich sein. 
Häufig sind Kinder im sonderpädagogischen Kontext kognitiv schwach und 
benötigen einfache und intuitiv zu verstehende Einführungsaufgaben. 
Günstig wäre die Möglichkeit, dem Kind die Anforderungen an die Subtests 
frei erläutern zu dürfen, im günstigsten Fall mit nicht bewerteten Anfang- 
sitems (Joel, 2017, S. 17). Umständliche Anweisungen, verpackt in kompli- 
zierte Schachtelsätze wären ungünstig. Testverfahren, die eine wortwört- 
liche Instruktionsvorgabe durch Ablesen der Anweisungen vorschreiben, 
sind weniger geeignet bei kognitiv schwachen Kindern. 


2.5.2 Beschreibung der Testverfahren 


Eine Auswahl häufig im sonderpädagogischen Kontext eingesetzter Intelligenz- 
tests wird skizziert. Dabei sollen neben einer kurzen Vorstellung des jeweiligen 
Tests der theoretische Hintergrund, die Dimensionalität sowie kritische Ein- 
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wände erwähnt sein. Eine Übersicht stellt im Anschluss die Testgütekriterien 
vor (Tabellen 4 und 5), eine weitere Übersicht Erwägungen zur praktischen An- 
wendung der Tests im sonderpädagogischen Kontext (Tabelle 6). Eine ab- 
schließende tabellarische Auflistung nennt Preise, Altersbereich und Hinweise 
für die Nützlichkeit ausgesuchter sonderpädagogischer Fragestellungen (Tabel- 
len 7 und 8). 

Die Auswahl der Intelligenztests entspricht einer subjektiven Einschätzung 
über die Häufigkeit des Einsatzes der Verfahren in der Sonderpädagogik, ent- 
spricht aber auch den persönlichen Kenntnissen des Autoren. Eine Wertung ist 
mit dieser Auswahl nicht verbunden. Da sich der Fragebogen der Untersu- 
chung ebenfalls maßgeblich auf diese Auswahl stützt und andere Testverfahren 
unter Sonstige subsummiert werden (mit der Möglichkeit, sonstige Tests von 
den ProbandInnen auch zu benennen), sei an dieser Stelle darauf hingewiesen, 
dass Verfahren wie AID-3 (Kubinger & Holocher-Ertl, 2014) oder CPM (Ra- 
ven, Raven & Court, 2010) und weitere weder in ihrer Bedeutung noch Gültig- 
keit bewertet werden, auch wenn sie nicht ausdrücklich aufgeführt sind. So 
listet allein der Hogrefe Verlag 32 Intelligenztests für den Kinder- und Jugend- 
lichenbereich auf (Hogrefe, 2017). Der Anspruch, alle Intelligenztests umfas- 
send zu würdigen, wird nicht erhoben. Die kurze Übersicht der Testverfahren 
ersetzt nicht ausführliche Rezensionen, sondern soll zum besseren Verständnis 
einen Überblick über die Tests vermitteln. 


2.5.2.1 K-ABC (Kaufman Assessment Battery for Children) 


Überblick: 1983 erschien die von dem Ehepaar Kaufman konstruierte erste Fas- 
sung der mehrdimensionalen K-ABC (Kaufman & Kaufman, 2004), 1991 er- 
schien die für den deutschsprachigen Raum adaptierte Fassung von Melchers 
und Preuß (2009). Die Gesamtskala intellektueller Fähigkeiten (eher fluide bzw. 
Grundintelligenz) unterscheidet zwischen einzelheitlichem Denken bzw. sequen- 
tieller Informationsverarbeitung und ganzheitlichem Denken bzw. simultaner 
Informationsverarbeitung (Lurija, 1970) und versteht Intelligenz als einen Pro- 
zess der Verarbeitung von Reizen. Lern- und Faktenwissen hingegen wird mit 
der Fertigkeitenskala erfasst und könnte mit der Testung der kristallinen Intelli- 
genz verglichen werden. Im Gegensatz zum WISC-IV wird das Ergebnis der 
kristallinen Intelligenz nicht in einen Gesamtwert integriert, sondern gesondert 
berechnet. Somit war es möglich, die Ergebnisse der eher umgebungsabhängi- 
gen kristallinen Intelligenz von den Ergebnissen der eher genetisch bedingten 
fluiden Intelligenz getrennt zu interpretieren. Darüber hinaus war es differen- 
tialdiagnostisch möglich, Stärken- und Schwächenanalysen vorzunehmen. 
Innovativ und vorteilhaft beim Erscheinen der K-ABC war das anwen- 
dungsfreundliche Arbeiten mit Stellordnern. In der Sonderpädagogik war die 
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K-ABGC ein Mittel der Wahl®, da es viele Items pro Subtest gab und es kognitiv 
schwachen Kindern durch das freie Erklären über Lernaufgaben ermöglichte, 
die Aufgabenstellungen besser zu verstehen. Inzwischen ist die K-ABC durch 
die KABC-I abgelöst und sollte sowohl auf Grund der veralteten Normstich- 
probe und dem damit verbundenen Flynn-Effekt, aber auch auf Grund schlech- 
ter und veralteter Bildmaterialien nicht mehr angewendet werden. 

Testgütekriterien und Kritik: In einer TBS-TK-Testrezension von Rollett 
und Preckel (2011) wird der K-ABC Objektivität voll, Zuverlässigkeit und Vali- 
dität jeweils weitgehend attestiert. Hervorgehoben wird die diagnostisch wert- 
volle Möglichkeit der Profilinterpretation, Hauptproblem sei die „Nichtberück- 
sichtigung aktueller Untersuchungen“ (ebd., S. 140). 

Anhand einer nicht repräsentativen Stichprobenuntersuchung untersuchten 
Renner, Schmid, Irblich und Krampen (2012) die psychometrischen Eigen- 
schaften bei fünf- und sechsjährigen Kindern. Die Reliabilitätskoeffizienten der 
Skalen lagen zwischen .86 bis .92, (ebd., S. 196), die Stabilität der Skalen lag bei 
.60 bis .79. Für den Subtest Bildhaftes Ergänzen ist die niedrigste Retest-Stabi- 
lität und die niedrigste interne Konsistenz ermittelt worden, vor allem für die- 
sen Subtest (aber auch für andere) sollten Befunde durch ergänzende Verfahren 
abgesichert werden (ebd., S. 203). 


2.5.2.2 KABC-II (Kaufman Assessment Battery for Children - Il) 


Überblick: Die überarbeitete Version der K-ABC unterscheidet sich grundle- 
gend von der vorherigen Version sowohl in der Durchführung, im theoreti- 
schen Modell als auch in der Gestaltung der Subtests. Acht der Subtests sind be- 
kannt, zehn neu hinzugekommen. Von möglichen 18 Subtests wird eine Aus- 
wahl (in der Regel 8-10 Subtests, je nach Alter, gewähltem Intelligenzmodell, 
Fragestellung und zeitökonomischen Vorgaben) von Subtests durchgeführt, 
dessen Ergebnisse in 3-5 übergeordneten Indices münden. Die Analyse der 
Testergebnisse der Indices ermöglicht eine Interpretation von individuellen 
Stärken und Schwächen des Kinds. Innovativ ist die Möglichkeit, aus zwei theo- 
retischen Modellen zu wählen. Eines orientiert sich wie in der K-ABC an dem 
Lurija-Modell, das andere an dem CHC-Modell der Intelligenz. Nach wie vor 
wird bei dem Modell nach Lurija die umgebungsabhängige kristalline Intelli- 
genz bei der Berechnung eines Generalfaktors nicht einbezogen. Dies ist häufig 
in der Sonderpädagogik sinnvoll, z.B. bei Kindern mit Sprachproblematiken, 
mit Migrationshintergrund oder bei geflüchteten Kindern. Da in einer leis- 


36 Die K-ABC ist deshalb auch Gegenstand dieser Untersuchung, auch wenn sie aktuell 
kaum noch durchgeführt wird. 
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tungsorientierten Gesellschaft wie Deutschland die Chance auf Bildung un- 
gleich verteilt ist und zuweilen vom finanziellen und Bildungshintergrund der 
Familiensysteme abhängt, kann der Einbezug der kristallinen Intelligenz auch 
politisch kontrovers diskutiert werden. Obwohl die Qualität der 2015 erschie- 
nenen KABC-I (Melchers & Melchers, 2015) gelobt wird, erweist sich der Test 
auf Grund der vielen Regeln (ca. 580 Regeln allein in der Testsituation; Joel, 
2017) bei einer seltenen Anwendung als unpraktikabel. Andererseits ist der Test 
gut geeignet, Kinder mit sonderpädagogischem Unterstützungsbedarf zu prü- 
fen, denn die Items sind sehr kindgerecht gestaltet und es besteht die Möglich- 
keit des freien Erläuterns der Aufgabenstellungen und Bodeneffekte sind kaum 
vorhanden. Mit Hilfe ausgewählter Subtests kann über die nonverbale Darbie- 
tung der Stimuli der Sprachfrei-Index ermittelt werden. 

Testgütekriterien und Kritik: In einer TBS-TK Rezension von Kuschel, 
Kamp-Becker und Ständer (2017) wird der KABC-II lediglich weitgehend Ob- 
jektivität, Zuverlässigkeit und Validität bescheinigt. Eine Gefährdung der Ob- 
jektivität wird zudem durch die Komplexität des Materials und der Verwen- 
dung von zwei theoretischen Modellen angenommen (ebd., S. 211). 

In ausführlichen Testrezensionen äußern sich Renner (2015) und Irblich 
(2015) überwiegend positiv. Die wichtigsten Kritikpunkte sind zusammenge- 
fasst (Joel, 2017): 


e Keine Angaben zur nonverbalen Anleitung der Subtests des Sprachfrei-In- 
dex (Renner/Irblich), 

e Übungseffekte bei zu rascher Testwiederholung (Renner/Irblich), 

e keine Hinweise zum Normierungsvorgehen (Renner/Irblich), 

e Kinder aus Familien mit niedrigem Bildungsabschluss sind unterrepräsen- 
tiert in der Normierungsstichprobe (Renner/Irblich), 

e leichte Bodeneffekte in einigen Subtests, vor allem bei jungen Kindern (Ren- 
ner/Irblich), 

e leichte Deckeneffekte in Ergänzungssubtests für Kinder ab 13 Jahren (Irb- 
lich), 

e nicht geeignet für den Förderschwerpunkt Sehen (Renner/Irblich), 

e in Einzelfällen nicht nachvollziehbare Lösungsvorgaben (Renner), 

e trotz Anweisungen, sich nicht zu beeilen, kann schnelles Arbeiten das Er- 
gebnis erheblich beeinflussen (Renner/Irblich), 

e Konstruktionsmängel beim Subtest Symbole (Renner/Irblich), 

e deutlich mangelhafte Materialqualität (Renner/Irblich), 

e Reliabilitätsberechnung auf Untertestebene unklar beschrieben (Irblich), 

e Indice Planung/Gf eher aus statistischen als aus inhaltlichen Gründen zu- 
sammengestellt (Irblich), 

e mangelnde Erläuterungen von Faktorenanalysen, dadurch sind Rückschlüs- 
se auf Ladungen schwer möglich (Irblich), 
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e fehlende Angaben zur Kriteriumsvalidität und prognostischen Validität 
(Irblich), 

e überflüssige Hintergrundinformationen auf den Instruktionsseiten (Irblich), 

e Indice Wissen/Gc bildet kristalline Intelligenz nur bedingt ab (Irblich), 

e postulierte Kulturfairness für den Gesamttest fragwürdig (Irblich). 


2.5.2.3 CFT1-R (Grundintelligenztest Skala 1) 


Überblick: Der CFT1-R (Weiss & Osterland, 2013) ist ein kurzer, auch in der 
Gruppe durchführbarer Intelligenztest. Drei Subtests (1. Teil) messen die wahr- 
nehmungsgebundene Leistung, drei weitere Subtests (2. Teil) das figurale und 
regelhafte Denken. Der ermittelte Gesamtwert misst eindimensional die fluide 
Intelligenz (Renner & Mickley, 2015b, S. 72). Der Test ist kindgerecht, zügig zu 
erlernen und günstig in der Anschaffung, ist aber zu kurz, um einen aussage- 
kräftigen Hinweis auf alle Bereiche der Intelligenz zu ermitteln. Der CFT1-R 
steht in der Tradition der culture-fair Testung, der Testung von Kindern ohne 
starke kulturelle und sprachliche Bezüge. Negativ fallen die versteckten und 
verwirrend beschriebenen Hinweise zu den Standardabweichungen auf. 

Testgütekriterien und Kritik: Renner (2014) empfiehlt entsprechend den 
Empfehlungen des Manuals ebenfalls nicht die Testung von intelligenzgemin- 
derten Kindern und hebt positiv eine eigene Normstichprobe für die Kinder 
mit dem Unterstützungsbedarf Lernen hervor. Die Durchführungsobjektivität 
sieht Renner gefährdet durch unzureichende Instruktionen, die Auswertungs- 
und Interpretationsobjektivität hingegen als gesichert. Die Reliabilitäten für den 
Gesamtwert fallen gut bis sehr gut, für die Testteile befriedigend bis gut aus. Die 
inhaltliche Validität wird als gesichert eingeschätzt, das Konstrukt Intelligenz 
wird nach Renner (2014) jedoch nur eingeschränkt repräsentiert. 


2.5.2.4 CFT2O-R (Grundintelligenztest Skala 2 - Revision 
mit Wortschatztest und Zahlenfolgentest) 


Überblick: Ebenfalls weitgehend kulturfair wird der CFT20-R (Weiss, 2006) für 
ältere Kinder bzw. Jugendliche und Erwachsene durchgeführt; das Konzept 
ähnelt dem CFTI-R. Die postulierte Sprachfairness wird eingeschränkt durch 
die Vorgabe, Instruktionen wörtlich vorzutragen. Diese Vorgabe lässt wenig 
Spielraum bei der Erläuterung der Subtests, sollte ein Kind nicht gut oder nicht 
Deutsch verstehen. Die Durchführung der Subtests verläuft hingegen ohne An- 
wendung der Sprache. Zwei Ergänzungstests ermöglichen neben der fluiden 
auch die Ermittlung der kristallinen Intelligenz. Der Test besteht aus zwei 
Durchgängen mit jeweils vier sich ähnelnden Subtests. Besonders Subtest 4 
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bzw. 8 sind kognitiv schwachen Kindern schwer zu vermitteln (die Position ei- 
nes kleinen schwarzen Punkts soll einer Auswahl unter bestimmten Vorgaben 
zugeordnet werden). 

Testgütekriterien und Kritik: In einer TBS-TK-Rezension von Gruber und 
Tausch (2015) bewerten diese Objektivität, Zuverlässigkeit und Validität mit 
weitgehend erfüllt und kritisieren das Fehlen von gültigen Normen für Erwach- 
sene. Positiv hervorgehoben wird die einfache Handhabbarkeit, die genauen 
Instruktionshinweise und die Ökonomie des Tests. 


2.5.2.5 WISC-IV (Wechsler Intelligence Scale for Children 
(Deutsche Ausgabe) - fourth Edition, ehemals HAWIK-IV) 


Überblick: Die Tests aus der Wechsler-Reihe hatten bis in die 90er Jahre eine 
große Bedeutung in der Sonderpädagogik. Entsprechende Suchanfragen im Re- 
gister der Zeitschrift für Heilpädagogik erzielten bei den Stichworten HAWIK 
bzw. WISC bis 1998 21 Treffer, danach 1 Treffer. Die aktuelle Version WISC-IV 
besteht aus 15 Subtests, von denen mindestens 10 (in Ausnahmefällen 8) Sub- 
tests zur Erzielung eines Generalfaktors durchgeführt werden müssen. Wechs- 
ler beschreibt Intelligenz als die zusammengesetzte oder globale Fähigkeit des 
Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner 
Umwelt wirkungsvoll auseinanderzusetzen (Wechsler, 1956, S. 13). Diese Defi- 
nition sei hier aufgeführt, da sie Grundlage der Wechsler-Testreihe ist, zu der 
auch die weiter unten beschriebenen Verfahren WNV und WPPSI-III gehören. 

Vier Indices ermitteln differenziert das Arbeitsgedächtnis (AG), das Sprach- 
verständnis (SV), Verarbeitungsgeschwindigkeit und das Wahrnehmungsgebunde- 
ne Logische Denken (WLD). Die Abgrenzung der Indices zueinander ist ungenau. 
So korreliert das Wahrnehmungsgebundene Logische Denken (in Anlehnung an 
das CHC-Modell) sowohl mit der fluiden, der kristallinen und der visuellen In- 
telligenz. Daseking, Petermann und Waldmann (2008) schlagen als Ergänzung 
zur Interpretation eines Gesamtwerts die Betrachtung eines allgemeinen Fähig- 
keitsindex (AFI) vor, der sich aus den Indices SV und WLD zusammensetzt. 

Die drei Subtests des Indice Sprachverständnis testen überwiegend akademi- 
sches Wissen und sind an die deutsche Sprache gebunden. Dieser eher kristalli- 
ne Bereich ist problematisch bei Kindern mit Sprachschwierigkeiten, Kindern 
aus einem bildungsfernen Milieu und Kindern mit Migrationshintergrund. 
Ca. 30 Prozent des Gesamtwerts werden also aus der umgebungsabhängigen 
kristallinen Intelligenz gebildet. 

Testgütekriterien und Kritik: Deimann und Kastner-Koller (2008) kritisie- 
ren die unzureichende Adaption des ursprünglich US-amerikanischen Verfah- 
rens in deutsche Verhältnisse, unklare Erläuterungen (z.B. zur Substitution von 
Subtests) und eine zu kleine Normstichprobe. 
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In einer TBS-TK-Rezension von Schmukle & Schulze (2016), wird die Relia- 
bilität mit voll, die Objektivität hingegen mit weitgehend und die Validität nur 
mit teilweise als erfüllt eingeschätzt. Die eingeschränkte Validitätsevidenz (ebd., 
S. 160) lässt die Frage offen, warum die WISC-IV über eine so hohe Akzeptanz 
verfügt und so häufig eingesetzt wird. Die Ende 2017 erschienene WISC-V be- 
stätigt nachträglich Konstruktionsschwächen, denn nun werden entsprechend 
dem CHC-Modell gleich konstruierte Subtests anderen Indices zugeschrieben. 


2.5.2.6 WPPSI-II (Wechsler Preschool and Primary Scale 
of Intelligence - Ill Deutsche Version) 


Überblick: Der WPPSI-III (Petermann, 2009) für Kinder bis 7;2 Jahre ist dem 
WISC-IV (für Kinder von 6 bis 16 Jahren) ähnlich und resultiert aus dem 
HAWIVA-II (Ricken, Fritz, Schuck & Preuß, 2007). Neben dem Gesamt- 
wert können vier weitere Werte berechnet werden, so dass der Test als mehr- 
dimensional gewertet werden kann: Verbalteil, Handlungsteil, Verarbeitungs- 
geschwindigkeit (VG) und Allgemeine Sprachskala. Der Verbalteil misst wie das 
Sprachverständnis des WISC-IV eher kristalline Intelligenz und ist für einige 
Kindergruppen von Nachteil, die ungünstige Bildungsbedingungen haben. Die 
Bildmaterialien sind ansprechend und motivieren die Kinder zur Mitarbeit. Je 
nach Alter werden zur Ermittlung eines Gesamtwerts mindestens bis zu sieben 
Subtests durchgeführt, insgesamt stehen jedoch 14 Subtests zur Verfügung, die 
teils optional entsprechend der Fragestellungen gewählt werden können. 

Testgütekriterien und Kritik: Renner (2010) kritisiert ergonomisch ungüns- 
tige Materialien, Abbruchkriterien, die eine mangelnde Compliance nach sich 
ziehen können und teils schwer nachvollziehbare Bewertungsrichtlinien, be- 
scheinigt jedoch eine reliable Intelligenzmessung. Leider beziehen sich die An- 
gaben zur Reliabilität teils auf die (weitgehend identische) Vorgängerversion 
HAWIVA-II. Die Durchführungsobjektivität wird als gesichert bescheinigt, die 
Auswertungsobjektivität scheint Renner fraglich. Eine Bewertung der Validität 
wird nicht vorgenommen, es wird allerdings empfohlen, diese durch weitere 
Daten zu belegen (ebd., S. 182). Irblich (2010) attestiert ebenfalls Mängel in der 
Auswertungsobjektivität auf Grund fehlender Angaben zur Bewertung, attes- 
tiert befriedigende bis sehr gute Reliabilitätskennwerte und bewertet die Inhalts- 
validität als gesichert, die Angaben zur Konstruktvalidität werden als weitgehend 
zufriedenstellend beschrieben (ebd., S. 324). 

Sattler und Dumont (2004) empfehlen den WPPSI-III bei der Testung von 
dreijährigen Kindern eher als Sreeningverfahren””. 


37 Bezugnehmend auf die Originalversion. 
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2.5.2.7 WNV (Wechsler Nonverbal Scale of Ability) 


Übersicht: Es gibt nur wenige Verfahren, die tatsächlich Kinder nonverbal tes- 
ten können. Im Grunde sind dies neben dem SON-R 2%-7 bzw. SON-R 6-40 
die WNV (Wechsler & Naglieri, 2006; Petermann, 2014) und der Sprachfrei- 
Index der KABC-IL Ein wirklich nonverbaler Intelligenztest hat Praxisrelevanz, 
da kulturelle und sprachliche Hintergründe der Kinder keine wesentliche Rolle 
mehr spielen und die tatsächliche Intelligenz erfasst wird. 

Je nach Alter werden vier der insgesamt sechs Subtests für die Berechnung 
des Gesamtwerts (in IQ) durchgeführt. Neben dem Gesamtwert und den vier 
Einzelergebnissen gibt es keine übergeordneten Indices, dennoch wird bean- 
sprucht, mit der WNV mehrdimensional testen zu können. Eine sinnvolle Ab- 
leitung von Stärken und Schwächen ist jedoch kaum möglich, dementspre- 
chend gibt es auch keine Hinweise auf evtl. abzuleitende Fördermaßnahmen. 
Bei Bedarf können auf Seite zwei des Testformulars zwar Stärken und Schwä- 
chen berechnet werden, die sich allerdings lediglich auf Stärken und Schwächen 
im Vergleich zwischen den Subtests beziehen. Eine übergeordnete Ableitung 
(z.B. auditive oder visuelle Merkschwächen, Gedächtnisschwierigkeiten, visuelle 
Verarbeitungsschwierigkeiten, Schwierigkeiten im Langzeitgedächtnis usw.) soll- 
ten von einer Testdurchführung, die aus vier Subtests besteht, nicht erwartet 
werden. Bei der Annahme, ein CHC Faktor auf Stratum-II-Ebene wäre ange- 
messen repräsentiert, sollten zwei dazugehörige enge Fähigkeiten auf Stratum- 
III-Ebene vorhanden sein (Renner & Mickley, 2015b, S. 72), wäre lediglich die 
breite Fähigkeit Gv (visuelle Verarbeitung) angemessen repräsentiert (siehe Ta- 
belle 3). 


Tabelle 3. WNV: Zuordnung enger Fähigkeiten zu den breiten (CHC-)Fähigkeiten. 


Gf Gs Gv Gsm sonstige 
(fluide (Verarbeitungs- (visuelle (Kurzzeit- 
Intelligenz) geschwindig- Verarbeitung) gedächtnis) 
keit) 
Langversion (4 Subtests) © o + - - 
jüngere Kinder: 
Kurzversion (2 Subtests) © o o o - 
ältere Kinder: 
Langversion jüngere o o = = 5 
Kinder: 
Kurzversion ältere o = o _ u 
Kinder: 


Anmerkungen. Erfassung breiter CHC-Faktoren mit der WNV, angelehnt an Renner & Mickley (2015b): 
„=“ = nicht repräsentiert, „o“ = mit einem Subtest repräsentiert, „+“ = mit mindestens zwei Subtests 
angemessen repräsentiert. 


85 


Es ist auch möglich, die bereits kurze Testdurchführung noch einmal zu kürzen 
und lediglich zwei Subtests durchzuführen, dennoch aber einen Gesamtwert 
(IQ) zu ermitteln. Dies kann sinnvoll sein, wenn unter Zeitdruck getestet wird, 
das Kind evtl. nur schwer zu motivieren ist oder die WNV eine Zweitmeinung 
darstellt neben der Durchführung einer komplexeren Testbatterie. 

Neben der rein nonverbalen Testung kann die WNV auch verbal durchge- 
führt werden. Es liegen Übersetzungen der Anweisungen in anderen Sprachen 
vor (Türkisch, Russisch, Spanisch, Arabisch). Es ist möglich, in der nonverbalen 
Durchführung neben dem Einsetzen von Gesten dem Kind ein Comic vorzule- 
gen, auf dem die Arbeitsanweisungen in Bildern zu sehen sind. Für jeden Sub- 
test gibt es eine Comicvorlage. 

Für drei der sechs Subtests gibt es keine Zeitbegrenzungen für die Kinder, 
dies ist z.B. von Vorteil für Kinder mit körperlichen Einschränkungen. 

Testgütekriterien und Kritik: Schroth (2015) beurteilt die Durchführungs-, 
Auswertungs- und Interpretationsobjektivität als gesichert, ebenso die Inhalts- 
validität. Die Konstruktvalidität wartet teils mit relativ hohen Werten auf. Die 
Reliabilitätsangaben werden mit gut bis sehr gut bewertet. Die Mehrdimensio- 
nalität wird nicht in Frage gestellt. 

Mickley (2015) kritisiert unpräzise nonverbale Instruktionsvorgaben und 
fehlende Hinweise zur Interpretation von möglichen Zusatzanalysen. Bis auf 
einige fehlende Instruktionsangaben wird die Durchführungs-, Auswertungs- 
und Interpretationsobjektivität als ausreichend beschrieben. Reliabilitätskoeffi- 
zienten werden mit befriedigend bis gut klassifiziert und münden in der War- 
nung, prognostische Entscheidungen auf der Basis des WNV mit Vorsicht zu 
formulieren (ebd., S. 111), da die Retest-Reliabilitäten auf kleinere Untersu- 
chungsgruppen basieren. Die Inhaltsvalidität wird attestiert. 

Die Mehrdimensionalität wird durch die begrenzte Zahl der Subtests nur 
eingeschränkt erfasst (ebd., S. 111), Daten zur faktoriellen Validität des Techni- 
schen Manuals deuten eher auf ein einfaktorielles Modell. 


2.5.2.8 SON-R 212-7 (Non-verbaler Intelligenztest) 


Überblick: Die Snijders-Oomen Testverfahren zeichnen sich durch die nonver- 
bale Durchführungsmöglichkeit aus, so auch der SON-R 2%-7°®. Ursprünglich 


38 Da der Autor im Gegensatz zu den anderen Verfahren über wenig Kenntnisse zum 
SON-R 2%-7 verfügt, wird der SON-R 2%-7 nicht in jede Auswertung bzw. Bewertung 
mit einbezogen. Aus Gründen der Vollständigkeit wird der SON-R 2%-7 allerdings im 
Fragebogen gewürdigt, da er durchaus im sonderpädagogischen Kontext genutzt wird. 
Hiermit sei also begründet, dass in den folgenden Kapiteln der SON-R 2%-7 teilweise we- 
niger Erwähnung findet. 
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sollte eine Intelligenzdiagnostik auch mit gehörlosen Kindern ermöglicht wer- 
den. Aus der ersten Version 1943 entwickelten sich Verfahren, die sowohl ver- 
bal als auch nonverbal Intelligenz messen. 

Der zu testende Altersbereich ist jeweils im Testnamen enthalten. Der SON- 
R 2%-7 testet die allgemeine Intelligenz mit Hilfe von 6 Subtests. Die 14 bis 
17 Items je Subtest werden adaptiv durchgeführt, d.h., die Leistung des Kinds 
bestimmt den weiteren Verlauf der Testung und somit den Schweregrad der 
Items. Das adaptive System hat den Vorteil, dass auf komplizierte Regeln wie 
die Umkehrregel verzichtet werden kann, deshalb ist das Erlernen der SON- 
Tests recht einfach (und somit das Wiedererlernen bei einer seltenen Anwen- 
dung). Je zwei Tests geben Hinweise auf das abstrakte Denken, das konkrete 
Denken und das räumliche Vorstellungsvermögen, so dass moderate differential- 
diagnostische Aussagen möglich sind. Im Gegensatz zu den anderen SON- 
Versionen wird bei diesem Verfahren neben einer Rückmeldung auch eine 
Korrektur gegeben, dies ermöglicht die Beobachtung von Lernprozessen wäh- 
rend der Testung. Je drei Untertests werden dem Bereich Denkskala, drei Un- 
tertests dem Bereich Handlungsskala zugeordnet. 

Testgütekriterien und Kritik: Naescher (2009) beschreibt die Durchführungs-, 
Auswertungs- und Interpretationsobjektivität mit weitgehend vorhanden, die in- 
terne Konsistenz auf Subtestebene wird sinngemäß mit mittel eingestuft. Insge- 
samt stimmt die Autorin aber dem niederländischen Bewertungssystem COTAN 
(siehe Evers, 2001a) zu, der den SON-R 212-7 mit der Bestnote gut auszeichnet. 

Das Karg Fachportal Hochbegabung (2017) kritisiert eine demnächst veral- 
tete Normstichprobe und verwirrende oder fehlende Angaben zu den Testgüte- 
kriterien. 


2.5.2.9 SON-R 512-17 (Non-verbaler Intelligenztest) 


Überblick: Obwohl der Test veraltete und lediglich im Ausland erhobene 
Normdaten erhält, zählt er noch zu den wichtigeren Tests in der Sonderpäd- 
agogik. Dies ist weniger mit der Qualität des Tests begründet, sondern mehr 
mit der Häufigkeit seiner Anwendung in der Sonderpädagogik. Bestehend aus 
7 Subtests (in einer Kurzversion 4 Subtests) kann ein Hinweis auf das intellek- 
tuelle Potential über einen Gesamtwert ermittelt werden. Moderate Hinweise 
auf Schwächen und Stärken können über die Auswertung übergeordneter Grup- 
pen vorgenommen werden: konkretes Denken, räumliches Vorstellungsvermö- 
gen, abstraktes Denken und Perzeption. 

Nach jedem Item erhält das Kind eine Rückmeldung, ob das Item richtig 
oder falsch gelöst wurde, damit gegebenenfalls die Problemlösungsstrategie 
überdacht werden kann. Die Anwendung ist einfach zu lernen und wird adaptiv 
durchgeführt. 
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Testgütekriterien und Kritik: In einer Rezension von Wolf (1999) wird die 
sorgfältige Normierung honoriert, jedoch darauf hingewiesen, dass die Normie- 
rung lediglich für die Niederlande mangels einer deutschen Normstichprobe 
repräsentativ ist. Die Reliabilität gilt als gegeben, „zahlreiche Studien zur Validi- 
tät“ (ebd., 0.5.) belegen den Zusammenhang mit Schulvariablen. Die Anwen- 
dung des Verfahrens wird von Wolf empfohlen. 

In einer Studie zur Testung von geflüchteten Kindern in der Sonderpädago- 
gik von 2017 wurde festgestellt, dass dieser veraltete und vor allem auf Grund 
des Flynn-Effekts ungeeignete Test am vierthäufigsten durchgeführt wurde” 
(Joel, 2018, S. 197). 


2.5.2.10 SON-R 6-40 (Non-verbaler Intelligenztest) 


Überblick: Relativ identisch (z. T. mit gleichen Materialien) sind vier der sieben 
Subtests des SON-R 5%-17 übernommen worden. Die verbliebenen vier Sub- 
tests enthalten jetzt noch weniger kristalline Anteile, z.B. soziale Situationen, 
auch wenn diese vorher nur wenig vorhanden waren. Die Umstellung dürfte 
den AnwenderlInnen leicht fallen, da sich so gut wie keine Regeln geändert ha- 
ben. Lediglich das adaptive Vorgehen hat sich geändert. Neben einem Gesamt- 
wert können Stärken- und Schwächenanalysen so gut wie nicht vorgenommen 
werden, zwei Subtests werden dem räumlichen Vorstellungsvermögen, zwei dem 
abstrakten Denken” zugeordnet, der Generalfaktor ermittelt die fluide Intelli- 
genz. Wie bei allen Tests der SON-Reihe können Kinder auch nonverbal getes- 
tet werden, zudem Erwachsene bis zum Alter von 40 Jahren. 

Testgütekriterien und Kritik: Schroth (2013) bezweifelt die Kulturfreiheit 
des Subtests Kategorien und eine Fehleranfälligkeit bei einer manuellen Aus- 
wertung, betont aber die sehr guten Testgütekriterien. Durchführungs- und 
Auswertungsobjektivität sowie die Interpretationsobjektivität werden attestiert, 
besonders durch die Nutzung der Computerauswertung. Die Kennwerte zur 
Reliabilität sind hoch, die Validität wird vor allem mit hohen Korrelationen zu 
anderen Intelligenztests begründet. 

Trotz der guten Testgütekriterien darf kritisch angemerkt werden, dass ein 
letztlich aus vier Subtests bestehender eindimensionaler Intelligenztest, aus dem 
sich lediglich ein Hinweis auf das intellektuelle Potential ergibt, mit einem 
Komplettpreis von 2 184 Euro“ erstaunlich hoch ist. 


39 Von SonderpädagoglInnen, die einmal ein geflüchtetes Kind getestet haben. 

40 Hinweise zur Interpretation oder zum theoretischen Aufbau des räumlichen Vorstellungs- 
vermögens und zum abstrakten Denken fehlen allerdings. 

41 Stand 26.5.18. 
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2.5.2.11 IDS (Intelligence and Development Scales) 


Überblick: Grundlage war der Versuch einer Weiterentwicklung des Kramer- 
Intelligenztests (Kramer, 1972), welcher wiederum in der Tradition des Binet- 
Tests stand, im Grunde ist allerdings ein völlig neu konzeptionierter Test kon- 
struiert worden, der nicht nur die Intelligenz, sondern auch verschiedene Ent- 
wicklungsbereiche erfassen soll: Psychomotorik, Sozial-emotionale Kompetenz, 
Mathematik, Sprache und Leistungsmotivation. Jeder dieser Bereiche kann ent- 
sprechend der Fragestellungen als eigenständiges Modul durchgeführt und 
kombiniert werden. Der Test ist sehr spielerisch gestaltet und bei den Kindern 
beliebt. 

Die sieben Subtests des Intelligenzteils sollen die Bereiche Wahrnehmung, 
Aufmerksamkeit, Gedächtnis und Denken erfassen und im Schwierigkeitsgrad 
aufeinander aufbauen, insgesamt die Fluide Mechanik testen, an dessen Ende 
ein Gesamtwert steht. Teilweise stehen nur wenige Items zur Verfügung, im 
Subtest Wahrnehmung Visuell z.B. sieben Items. Dies hat zur Folge, dass die 
Aufgaben für kognitiv schwache Kinder relativ schnell zu schwer werden und 
wenig differenzierende Aussagen möglich sind. Für intelligenzgeminderte Kin- 
der ist dieser Test deshalb nicht geeignet. Für die vier postulierten Bereiche be- 
steht nicht die Möglichkeit, diese gesondert auszuwerten. Deshalb ist über die 
Bestimmung eines Generalfaktors in Form eines IQ keine Differentialdiagnose 
möglich. Die IDS ist sehr kindgerecht gestaltet und bringt den Kindern häufig 
mehr Spaß als andere Intelligenztests. Dies ist von Bedeutung bei Kindern mit 
häufig erlebten Frustrationsmomenten in Leistungssituationen. Kindgerecht 
gestaltete Tests wie die IDS erhöhen gerade bei diesen Kindergruppen die Com- 
pliance. 

Testgütekriterien und Kritik: Naescher (2010) bewertet die IDS als klar 
strukturiertes, reliables und valides Verfahren und äußert sich insgesamt posi- 
tiv. In einer ungewöhnlich scharfen Kritik bezweifeln Koch, Kastner-Koller und 
Deimann (2011) die Möglichkeit, das gesamte Spektrum der Entwicklungs- und 
Leistungsdiagnostik im pädagogischen und klinischen Bereich mit einem Test 
abdecken zu können, benennen Probleme bei der Durchführungs- und Aus- 
wertungsobjektivität und raten gar von Subtests (aus dem Bereich Psychomoto- 
rik) ab, da die Reliabilität mangelhaft ist und kritisieren, dass „eine bloße Zi- 
tierung neuerer empirischer Ergebnisse (...) noch keine Entwicklungstheorie“ 
begründet (ebd., S. 112). Den kritischen Einwänden widersprechen Grob und 
Hagmann-von Arx (2011) in einer Replik, räumen aber geplante Revisionen 
ein. 
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2.5.3 Zusammenfassende Übersicht der Testgütekriterien 


In den Tabellen 4 und 5 werden zum Zwecke der besseren Übersicht die Haupt- 
gütekriterien für die überwiegend interessierenden Tests zusammengefasst. Bei 
mehreren Angaben zu den Gütekriterien werden die Angaben in den Test- 
rezensionen bevorzugt dargestellt, da ein objektiverer Blick auf die Tests unter- 
stellt wird. So ist z.B. denkbar, dass ein weniger günstiger Wert weniger promi- 
nent in einem Manual platziert bzw. vom Testverlag vorgestellt wird, während 
bei Testrezensionen eine kritische Grundhaltung anzunehmen ist. Die drei 
Hauptgütekriterien sind farblich markiert und basieren auf Angaben von Gru- 
ber und Tausch, 2015; Deimann und Kastner-Koller, 2008; Renner, 2010; Mick- 
ley, 2015; Naescher, 2009; Testzentrale, 2017; Schroth, 2015 sowie Naescher, 
2010. Weitere konkrete Quellenangaben zu den jeweiligen Tests sind kenntlich 
gemacht. 


Tabelle 4. Übersicht der Hauptgütekriterien für ausgewählte Intelligenztests. 


K-ABC' KABC-II? CFT1(-R)° CFT20-R* WISC-IV° 
Durchführungs- ja ja, aber beein- weitgehend ja weitgehend 
objektivität trächtigt durch 
Komplexität 
Auswertungs- ja ja ja ja weitgehend 
objektivität 
Interpretations- ja weitgehend ja weitgehend ja 
objektivität 
Retest- Subtests: .63-.91 >.80->.90 Subtests: 
Reliabilität .57-.95 Gesamttest: WSJZF-R: .76-.91 
Skalen: .90 .83-.92 Index/Gesamt: 
.84-.97 .87-.97 
Paralleltest- 
Reliabilität 
Testhalbierungs- .69-.93 >.70->.90 >.80->.90 
Reliabilität 
Interne .59-.90 .75-.95 .86-.96 
Konsistenz Gesamt: .97 
Inhaltsvalidität gesichert 
Konstrukt- Vergleich Vergleich Validität wird belegt, teils Vergleich 
validität andere Tests: andere Tests: mit Validität nur mit CFT20 HAWIK-III: 
.50-.80 um .70-.80 des CFT 1 Validität .63-.73 
MR begründet begründet 
Kriteriums- 
validität 


Anmerkung. 1: Rollett & Preckel, 2011. 2: Kuschel, Kamp-Becker & Ständer, 2017; Irblich, 2015; Renner, 
2014. 3: Renner, 2014; Weiss & Osterland, 2013. 4: Gruber & Tausch, 2015. 5: Schmukle & Schulze, 
2016; Deimann & Kastner-Koller, 2008. 
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Tabelle 5. Übersicht der Hauptgütekriterien für ausgewählte Intelligenztests. 


WPPSI-IN® WNV? SON-R® SON-R* SON-R® IDS® 
21%-7 51%-17 6-40 
Durchführungs- ja weitgehend „weitgehend nicht voll- ja ja 
objektivität gewährleis- ständig 
tet“ 

Auswertungs- teilweise ja „weitgehend ja ja zufrieden- 
objektivität gewährleis- stellend 
tet“ 

Interpretations- ja ja „weitgehend ja ja ja 
objektivität gewährleis- 
tet“ 
Retest- .61-.75 4-7;11 .79 (drei Subtests: Subtests: 
Reliabilität (für zwei Jahre: Monate) 8.79 .34-.88 
Subtests) .70-.95 Gesamt: Gesamt: 
8-21;11 .92 .83 
Jahre: 
.68-.85 
Paralleltest- 
Reliabilität 


Testhalbierungs- belegt; 


Reliabilität Gesamtwert: 
‚95 
Interne .72-.90 8.70 Gesamt: Gesamt: .68-.96 
Konsistenz 0.93 0.95 
Inhaltsvalidität belegt Begründet durchgeführt 
mit Experten- 
ratings 
Konstrukt- Vergleich begründet .46 (Lehr- Cito-Test: Bewertung Vergleich 
validität HAWIK-IV: mit US-ame- kräfte) .66 Lehrer: .42 mit Tests: 
Ges: .91 rikanisch- ® .65 Andere .21-.69 
Subtests: kanadischen andere Tests Tests: Ø .80 
.61-.78 Daten 
Kriteriums- .54-.63 
validität (Schul- 


Indikatoren) 


Anmerkung. 1: Renner, 2010. 2: Schroth, 2015; Mickley, 2015. 3: Naescher, 2009. 4: Wolf, 1999. 5: 
Schroth, 2013. 6: Naescher, 2010. 7: Es ist möglich, dass die Bezeichnung „weitgehend“ eine bessere 
Bewertung meint als das „weitgehend“ der TBS-TK-Rezensionen, die eine Abwertung beinhalten. Ø = 
Durchschnitt. Ges. = Gesamt. 


2.5.4 Bedeutungsvolle Aspekte bei der Testanwendung 
in der Sonderpädagogik 
Überproportional häufig werden im sonderpädagogischen Kontext kognitiv 


schwache Kinder getestet. Über die durch die Testgütekriterien hinaus gehen- 
den Qualitätsbelege werden weitere Aspekte bei der Anwendung von Intelli- 
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genztests vorgeschlagen, teilweise in Anlehnung an Nebengütekriterien, teil- 
weise nicht erfasst mit Testgütekriterien. Die vorgeschlagenen Aspekte sollen 
die besonderen Bedürfnisse von Kindern mit sonderpädagogischem Unterstüt- 
zungsbedarf berücksichtigen (Joel, 2017, S. 15ff.). 
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Hohe Itemdichte: Eine große Anzahl an Items verhindert Bodeneffekte, bei 
einer geringen Anzahl von Items sind differenzierte Aussagen erschwert. 
Große Altersbandbreite: Testverfahren sollten prinzipiell jüngere Kinder tes- 
ten können, damit älteren, aber kognitiv schwächeren Kindern die einfache- 
ren Aufgaben für die jüngeren Kinder zur Verfügung stehen (z.B. über die 
Umkehrregeln). 

Große Normstichprobe: Eine große Normstichprobe verhindert Verzerrun- 
gen, da in der Sonderpädagogik sinnbildlich oft am Rand der Gaußschen 
Kurve getestet wird und somit die hypothetische Vergleichsgruppe bei einer 
kleinen Normstichprobe zu klein sein könnte, um Artefakte auszuschließen. 
Aktuelle Normstichprobe: Praxis bei der Feststellung sonderpädagogischen 
Unterstützungsbedarfs ist der Einbezug eines Gesamt-IQ. Die Gefahr einer 
Stigmatisierung durch ein veraltetes und durch den Flynn-Effekt anfälliges 
Verfahren ist groß, da die Ergebnisse signifikant zu hoch sein könnten. 
Praktikabilität: Die Anwendung eines Intelligenztests ist oft ein lediglich ge- 
legentlicher Part in der Arbeit von SonderpädagoglInnen. Bestünde ein Test 
aus einer Regelflut, wäre der Test nicht nur mühsam zu erlernen, er müsste 
bei einer seltenen Anwendung dann erneut mühsam erlernt werden, auch 
die Durchführungsobjektivität könnte gefährdet sein. 

Computerauswertung: Die Auswertung über eine Software spart Zeit und 
erhöht die Auswertungsobjektivität (siehe Praktikabilität). 

Freies und intuitives Erklären: Günstig ist die Möglichkeit, kognitiv schwa- 
chen Kindern die Lernaufgaben frei vorstellen zu können. Ansonsten bestün- 
de die Gefahr, dass die Anweisungen nicht kindgerecht angeboten werden 
und die Kinder nicht erfassen, worum es geht. Von Vorteil wären auch un- 
bewertete Lernaufgaben, so dass bei einer sehr freien Instruktion die Durch- 
führungsobjektivität nicht gefährdet ist (bei einer bewerteten Lernaufgabe 
müsste das standardisierte Vorgehen wieder in den Vordergrund rücken). 
Motivierende Stimuli: Die Testsituation ist eine Leistungssituation und Kin- 
der mit sonderpädagogischem Unterstützungsbedarf hatten häufig unlust- 
volle Versagenserfahrungen in Leistungssituationen. Damit die Kinder in 
der Testsituation diese nicht mit vorher gemachten Misserfolgssituationen 
assoziieren, sollten gerade bei Kindern mit sonderpädagogischem Unter- 
stützungsbedarf die Aufgaben motivierend, kindgerecht und spannend ge- 
staltet sein, um die Compliance zu erhöhen. 

Differentialdiagnostische Ableitungsmöglichkeiten: Zur Ableitung von För- 
dermaßnahmen sind Stärken- und Schwächenanalysen mit eindimensiona- 


len Verfahren kaum möglich. Pädagogische Ableitungen ermöglichen eher 
mehrdimensionale Tests, die neben dem Vergleich mit der Gesamtheit al- 
tersgleicher Kinder auch individuelle Stärken und Schwächen ermitteln. 


Diese beschriebenen Aspekte berücksichtigen eingehender die Anforderungen 
an einen Intelligenztest, der mit Kindern mit sonderpädagogischem Unterstüt- 
zungsbedarf durchgeführt wird. Vor allem Lernschwierigkeiten und körperliche 
Beeinträchtigungen der Kinder erschweren die Anwendung eines normierten 
standardisierten Tests. Ergänzend zu den oben beschriebenen Haupt- und Ne- 
bentestgütekriterien werden deshalb diese Aspekte erwähnt. Sicher wäre es 
lohnenswert, diese Aspekte bei der Konstruktion eines Intelligenztests für Kin- 
dergruppen im sonderpädagogischen Kontext zu berücksichtigen. In diese 
Untersuchung fließen ungünstige Rahmenbedingungen mit ein, denn aus die- 
sen können Schwierigkeiten resultieren. Die Art und Weise, wie die Tests kon- 
struiert worden sind, kann dessen Anwendung erschweren oder erleichtern und 
sich somit auf die Testatmosphäre auswirken. 

Eine Einschätzung, ob die im Vordergrund stehenden Verfahren obige As- 
pekte günstig bzw. ungünstig berücksichtigen und somit Auswirkungen auf 
erlebte Schwierigkeiten haben können, fasst Tabelle 6? zusammen. 


Tabelle 6. Einschätzung ausgewählter Intelligenztests unter Berücksichtigung bedeu- 
tungsvoller Aspekte. 


= 3 x > = a 

O © Q Pr a à wm y 

a a E Ë 3 E k 247? 

<< E E 2 & Z ỌORÖOIY 

x x (2) (2) 3 3 3 ab no A 
Itemdichte ++ ++ ++ ++ ++ + + + + - 
Altersbandbreite + ++ o + + o ++ + + o 
Große Normstichprobe + - ++ + - - = bis o o 

++ 

Aktuelle Normstichprobe == ++ ++ o o + ++ _- ++ + 
Praktikabilität o == + + - o + + + o 
Computerauswertung o ++ + + + + n.v. + + ++ 
Freies/intuitives Erläutern ++ + + - + + ++ ++ ++ - 
Motivierend + + + o + + + o o ++ 
Stärken/Schwächen Analyse ++ ++ - - ++ ++ o o E za 
Anmerkungen. Einschätzungen von „-—“ (= negativ) bis „++“ (= positiv). 


1 WNV: Normstichprobengrößen variieren stark. n.v. = nicht vorhanden. 
2 SON-R 512-17: keine deutsche Normierung. 


42 Mangels genügend eigener Erfahrungen ohne SON-R 2%-7. 


93 


Als letzte Aspekte sollen Basisinformationen über die ausgewählten Intelligenz- 
tests zusammengefasst vorgestellt werden. Tabelle 7 gibt einen Überblick über 
die Testdauer, die Kosten, den Altersbereich und die Möglichkeit, per PC aus- 
zuwerten, der Tabelle 8 sind Einschätzungen zu entnehmen, für welche Frage- 
stellungen bzw. Kindergruppen die Verfahren geeignet scheinen. 

Mit diesen Übersichten sind somit die besonders interessierenden Tests so- 
wohl in der praktischen Relevanz eingeschätzt als auch in der testtheoretischen 
Qualität. 


Tabelle 7. Basisinformationen ausgewählter Intelligenztests (Stand: 4.8.2017). 


KABC-II 2 WISC-IV CFT1-R CFT20-R IDS SON-R WNV WPPSI-IIN 
6-40 


Testdauer Min. ca. 90 ca. 70 ca. 20 ca. 30 ca. 90 ca.60 30/50 


Kosten 1565€ 1562€ 118€ 232€ 1164€ 2076€ 1123€ 1110€ 
PC-auswertung inkl. inkl. 298 € 289€ inkl. inkl. n.v. n.v. 
Altersbereich 3;0- 6;0- 5;3- 8;5- 5;0- 6;0- 4;0- 3;3- 

in Jahren 18;11 16;11 9;11 60 10;11 40;11 21511 1;2 


Anmerkungen. Angaben entsprechend der Hinweise der Testverlage. CFT20-R Durchführung in Min. ohne 
kristalline Zusatztests. WNV: Testdauer unterschieden in Kurzversion/Langversion. WPPSI-IIl: Testdauer 
kann je nach Alter stark schwanken. n. v. = nicht vorhanden. 


Tabelle 8. Einschätzungen nach Eignung ausgewählter Intelligenztests für häufige 
Fragestellungen. 


Fragestellungen/ KABC-II WISC-IV CFT IDS SON-R WNV 
Kindergruppen 6-40 
Sprache ja eher nein ja ja ja ja 
Lernen ja ältere ja ab ca. ja ja 
Kinder ja 7 Jahren 
Geistige Entwicklung ja evtl. ab eher nein nein ausprobie- ausprobie- 
12-14). ren ren 
geflüchtete Kinder eher ja: SFI, nein eher ja eher nein ja ja 
evtl.: IVI 
(Hoch-)Begabung ja ja ergänzend ergänzend ja ja 
Teilleistungs- ergänzend ergänzend ergänzend ergänzend ergänzend ergänzend 
störungen zu den TLS zudenTLS zudenTLS zudenTLS zudenTLS zu den TLS 
Tests Tests Tests Tests Tests Tests 
ja ja ja ja ja ja 
Analyse Stärken/ ja ja nein moderatja nein eher nein 


Schwächen möglich? 


Anmerkungen. SFI = Sprachfrei-Index (nonverbale Durchführung); IVI = Individueller Verarbeitungsindex 
(Durchführung nach Lurija). 
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2.5.5 Rahmenbedingungen im Umgang mit Intelligenztests 
auf der Ebene der Bundesländer 


Bildung ist Sache der Bundesländer und resultiert aus dem Art. 30 des Grund- 
gesetzes (Kultusministerkonferenz, 2019). Aus diesem wird abgeleitet, dass Bil- 
dung zu den Befugnissen und Aufgaben der Länder gehöre. Dieses Privileg der 
Länder bedeutet, dass bildungspolitische Angelegenheiten unterschiedlich um- 
gesetzt werden und kann im Zusammenhang mit dieser Arbeit bedeuten, dass 
die Anwendung von Intelligenztests im sonderpädagogischen Kontext vom je- 
weiligen Bundesland abhängen kann, in dem das Kind getestet wird. Es kann 
möglich sein, dass die bildungspolitischen Rahmenbedingungen der jeweiligen 
Bundesländer dazu führen, dass ein veralteter Test häufiger in dem einen Bun- 
desland genutzt wird, während in dem anderen Bundesland aktuellere und aus- 
sagkräftigere Tests verwendet werden. Wäre dem so, hinge eine mehr oder we- 
niger angemessene Testdiagnostik davon ab, wo das Kind wohnt. Hinzu könnten 
unterschiedliche Rahmenbedingungen dazu führen, dass TestanwenderInnen 
mehr oder weniger Zeit für die Vorbereitung der Tests erhalten, mehr oder 
weniger gut an die Tests kommen, mehr oder weniger auf eine Tradition in der 
Anwendung von Tests zurückgreifen können. Während in der Regel in Nord- 
rhein-Westfalen (NRW) z.B. innerhalb weniger Wochen die sonderpädagogi- 
schen Gutachten geschrieben werden sollen, werden in Niedersachsen weitest- 
gehend ganzjährig Gutachten geschrieben. Aus diesem Unterschied könnte eine 
geringere Verfügbarkeit der Testverfahren in NRW resultieren, da viele Son- 
derpädagoglInnen zur gleichen Zeit die Tests nutzen möchten. 

Überregionale Fragen zur Bildung werden auf den Kultusministerkonferen- 
zen (KMK) diskutiert. Im Zusammenhang mit der Intelligenzdiagnostik gibt es 
z.B. einen zurückliegenden Beschluss zur Eingliederung von Berechtigten nach 
dem Bundesvertriebenengesetz von 1971 in der Fassung von 1997 (Kultus- 
ministerkonferenz, 1997). Es wird hier für die Aufnahme in Sonderschulen die 
Anwendung von sprachfreien Intelligenztests empfohlen. 

Es ist jedoch nicht bekannt, dass die aktuelle Anwendung von Intelligenz- 
tests bei einer Zusammenkunft der KultusministerInnen geregelt worden sei, 
dazu müsste eine Bedeutung über die Bundesländer hinweg vorliegen (Kultus- 
ministerkonferenz, 2019). Es gelten dementsprechend diesbezüglich die in den 
Ländern festgelegten Regularien, die auf den jeweiligen Bildungsservern einge- 
sehen werden können. Um Unterschiede und Gemeinsamkeiten bezüglich der 
Anwendung von Intelligenztests zu skizzieren ist allerdings zu bedenken, dass 
auch bei Vorliegen entsprechender Richtlinien auf Landesebene nicht zwingend 
dessen kongruente Umsetzung auf regionaler Ebene vorliegen muss. So gibt es 
nach Sichtung der für die Darstellung von Unterschieden und Gemeinsamkei- 
ten vorliegenden Unterlagen Hinweise, dass sich auch innerhalb eines Bundes- 
lands die Anwendung von Intelligenztests regional unterscheiden kann. Eine 
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differenzierte Darstellung von Gemeinsamkeiten und Unterschieden getrennt 
nach Schulkreis bzw. Schulamt, im Grunde genommen getrennt nach Schule 
bzw. Förderzentrum, würde den Rahmen dieser Arbeit sprengen. 

In dieser Arbeit sollen auf Bundeslandebene Hinweise und Richtlinien zum 
Thema vorgestellt werden, überwiegend entnommen den jeweiligen Bildungs- 
servern, aber auch auf Grundlage von Rückmeldungen entsprechender Anfragen. 

Bei einem Vergleich könnten aus dem unterschiedlichen Umgang mit Intel- 
ligenztests Rückschlüsse für Variablen gezogen werden, die zu vermehrten 
Schwierigkeiten bei der Anwendung der Tests führen könnten. 

Es könnte z.B. interessant sein, ob die Freiheit, selbst über die Anwendung 
eines Intelligenztests bei der Gutachtenerstellung entscheiden zu können, zu 
weniger oder mehr Schwierigkeiten im Umgang mit den Tests führen. Ebenfalls 
interessant wäre das Ausmaß beschriebener Schwierigkeiten abhängig vom 
Umfang der zur Verfügung stehenden Tests. 

Einerseits geben die ProbandInnen bereits beim Ausfüllen des Fragebogens 
einen Hinweis über das Bundesland, in dem sie arbeiten, so dass vergleichende 
Rückschlüsse über diesen Zugang bereits möglich sind. Dennoch stellen die 
Hinweise auf Länderebene zum Umgang mit Intelligenztests bei der sonder- 
pädagogischen Gutachtenerstellung eine weitere Grundlage dar, die Ursachen 
von Schwierigkeiten zu erkennen. Auch wenn die pädagogische Arbeit inner- 
halb des Bildungssystems deutlichen Spielraum zulässt - resultierend aus un- 
klaren oder wenigen Vorgaben - völlig losgelöst von bildungspolitischen Vor- 
gaben auf Landesebene ist die Gutachtenerstellung kaum denkbar. 

Im Folgenden wird für jedes Bundesland umrissen, welche Aussagen zur 
Anwendung von Intelligenztests getroffen werden. Die Grundlage für entspre- 
chende Informationen war die Sichtung der jeweiligen Bildungsserver sowie 
Antworten aus formellen und informellen Anschreiben an persönlich bekannte 
SonderpädagogInnen, aber auch an offizielle Stellen wie Schulämter, Behörden 
usw. Die Anschreiben waren bis auf Ausnahmen in der Anrede (abhängig 
vom persönlichen Bekanntheitsgrad) sinngemäß identisch: 


Im Rahmen meiner Dissertation (Anwendung von Intelligenztests in der Sonder- 
pädagogik) möchte ich den unterschiedlichen Umgang mit Intelligenztests in den 
Bundesländern skizzieren und möchte Sie um Hilfe bitten, mir kurz folgende Fragen 


zu beantworten: 


e Gibt es Handreichungen oder ähnliche Schriften für SonderpädagogInnen, wie 
die Diagnostik zur Feststellung sonderpädagogischen Unterstützungsbedarfs ge- 


staltet sein soll? 


43 Gesendet Mitte Januar 2019 bis Mitte Februar 2019. 
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e Gibt es eine Liste von Intelligenztests, die im Rahmen des Feststellungsverfah- 
rens durchgeführt werden sollen? 

e Ist es den SonderpädagogInnen generell freigestellt, IQ-Tests durchzuführen 
oder nicht? 

e Wer führt in XX“ federführend die Gutachten durch? 


Für jedes Bundesland wurden in der Regel vier bis zehn E-Mails gesendet, ca. 
jede zweite E-Mail wurde beantwortet, gelegentlich entwickelte sich ein Aus- 
tausch zum Thema und es wurden weiterführende Informationen gesendet, 
z.B. regionale oder schulinterne Handreichungen, persönliche Erfahrungen mit- 
geteilt etc. Der folgende Abriss stellt eine Übersicht über den Umgang mit In- 
telligenztests dar, alphabetisch sortiert nach Bundesland. Auf die Darstellung 
der Angaben aus privaten E-Mails wird mangels Verifizierbarkeit nur selten zu- 
rückgegriffen, auch wenn sie Aufschluss geben über das regional unterschiedli- 
che Vorgehen. Es sei jedoch darauf hingewiesen, dass die regionalen Bestim- 
mungen der Schulämter nicht übereinstimmen müssen mit den entsprechenden 
Verordnungen der Länder und es gibt Hinweise für einen unterschiedlichen 
Umgang bezüglich der Anwendung von Intelligenztests, unabhängig von den 
Verordnungen der Länder. So „kann“ in Baden-Württemberg z.B. ein Intelli- 
genztest durchgeführt werden, muss aber nicht (SBA-VO, 2016). Dem gegen- 
über stehen Angaben von SonderpädagogInnen, für die die Nutzung aus Intel- 
ligenztestergebnissen in ihrer Region zwingend sei. Widersprüche dieser Art 
scheinen nicht ungewöhnlich zu sein und werden auch kritisch als nicht ver- 
einbar mit dem Schulgesetz beschrieben (LAG®, 2016, S. 11). 

In Baden-Württemberg gilt seit dem 1. August 2015 ein neues inklusives 
Schulgesetz (LAG, 2016, S. 3), in dem die Abschaffung der Sonderschulpflicht 
festgelegt ist. Das als „sehr allgemein“ kritisierte Gesetz (ebd., S. 3) wird konkre- 
tisiert durch die „Verordnung des Kultusministeriums über die Feststellung 
und Erfüllung des Anspruchs auf ein sonderpädagogisches Bildungsangebot“ 
(SBA-VO, 2016: Teil 2 Abschnitt 1 $6 Abs. 2). Eingeleitet wird ein Feststel- 
lungsverfahren von der Schulaufsichtsbehörde, beauftragt für die sonderpäd- 
agogische Diagnostik wird eine Lehrkraft für Sonderpädagogik. Die beauftragte 
Lehrkraft ist inhaltlich „nicht an Weisungen“ gebunden (ebd.). Es wird er- 
wähnt, dass die Diagnostik eine Schulleistungsprüfung und einen Intelligenztest 
beinhalten „kann“ (ebd.). Empfehlungen für die Anwendung konkreter Intelli- 
genztests werden auf Landesebene nicht vorgenommen. 


44 Für XX steht das jeweilige Bundesland; teilweise in den großen Flächenländern mit dem 
Hinweis XX, bzw. in Ihrem Schulkreis. 

45 LAG: Landesarbeitsgemeinschaft Baden-Württemberg - Gemeinsam leben - gemeinsam 
lernen e.V. 
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Grundlage schulischer Angelegenheiten in Bayern ist das Bayerische Gesetz 
über das Erziehungs- und Unterrichtswesen (BayEUG) vom 31.5.2000, novel- 
liert 2003. Mit einer Änderung des BayEUG zum 1.8.2011 (Bayerisches Staats- 
ministerium für Unterricht und Kultus, 2014) „wird besonderer Wert auf die 
integrativen Bemühungen für Kinder mit Förderbedarf“ gelegt (ebd., S. 3). 
Lehrkräfte der Mobilen Sonderpädagogischen Dienste sind u.a. für die Dia- 
gnostik zuständig. In einer Broschüre über Kinder mit sonderpädagogischem 
Förderbedarf (Bayerisches Staatsministerium für Unterricht und Kultus, 2018) 
wird beschrieben, dass der Förderbedarf „mithilfe gezielter sonderpädagogi- 
scher Diagnostik festgestellt“ wird (ebd., S. 7). Aktuelle Richtlinien über die Ge- 
staltung der Diagnostik mit Hilfe von Intelligenztests, gültig für das ganze Bun- 
desland, konnten nicht erkannt werden. Es bleibt unklar, ob Tests angewendet 
werden müssen oder können und welche Tests bei Bedarf Anwendung finden. 

Im Gegensatz dazu ist die Anwendung von Intelligenztests in Berlin eindeu- 
tig geregelt. In der aktuellen Auflage des Leitfaden zur Feststellung sonderpäd- 
agogischen Förderbedarfs an Berliner Schulen (Kern et al., 2017) werden konkrete 
Testverfahren benannt, abgestimmt auf die jeweiligen Unterstützungsbedarfe. 
Standardisierte Testverfahren werden u.a. als Grundlage der sonderpädagogi- 
schen Diagnostik genannt (ebd., S.5), beispielsweise WISC-IV, der WNV, 
SON-R 6-40 oder KABC-I für den Unterstützungsbedarf Lernen, SON-R 6-40 
oder die CFT-Tests für den Unterstützungsbedarf Sprache. Mit letzteren Tests 
sind auch alle SonderpädagogInnen ausgestattet, die in der Inklusion arbeiten. 
Mit den kürzeren Tests der CFT-Reihe kann eine Vorauswahl für eine ausführ- 
liche Überprüfung durch die Diagnostik- und Beratungslehrkräfte in den Bera- 
tungsstellen vorgenommen werden. Die in den Beratungsstellen“ arbeitenden 
SonderpädagoglInnen sind spezialisiert u.a. in der Anwendung von Intelligenz- 
tests. Dieses System hat mehrere Vorteile. Es gibt zwischen Testergebnissen 
eine bessere Vergleichbarkeit durch die beschriebene Auswahl der Tests, die 
spezialisierten SonderpädagoglInnen in den SIBUZ sind routinierter in der An- 
wendung und die SonderpädagogInnen, die in der Inklusion arbeiten (z.B. 
Grund- oder Realschulen) sind bereits mit einem Test ausgestattet”, welcher 
ohne Umwege über eine zentrale Testleihe unbürokratisch angewendet werden 
kann®*. 

Berlin und das Berlin umgebende Brandenburg arbeiten bildungspolitisch 
eng zusammen und unterhalten z.B. gemeinsam das Landesinstitut für Schule 
und Medien Berlin-Brandenburg (LISUM) in Ludwigsfelde. Auch für Branden- 


46 Über das Stadtgebiet verteilte SIBUZ: Schulpsychologische und Inklusionspädagogische 
Beratungs- und Unterstützungszentren. 

47 Und in dessen Anwendung in Fortbildungen geschult. 

48 Selbstredend unter Beachtung ethischer und gesetzlicher Regelungen, z.B. das Einver- 
ständnis der Sorgeberechtigten. 


98 


burger SonderpädagoglInnen gibt es eine verbindliche Handreichung (MBJS®, 
2018). Bereits in einer Unter-Überschrift wird von „verbindlich einzusetzenden 
diagnostischen Instrumenten (...)“ auf der ersten Seite gesprochen und somit 
festgelegt, dass die an späterer Stelle beschriebenen Testverfahren angewendet 
werden sollen (ebd., S. 1). Diese sind ebenfalls wie in Berlin detailliert aufge- 
schlüsselt je nach Unterstützungsbedarf und entsprechen bezüglich der Intelli- 
genztests dem aktuellen Stand. 

In Bremen ist es nicht verpflichtend, Intelligenztests durchzuführen. Auch 
wenn aktuelle Intelligenztests im Stadtgebiet zum Leihen vorhanden sind, gibt 
es keine offizielle Liste der anzuwendenden Verfahren wie in Berlin oder Bran- 
denburg, abgestimmt auf die Unterstützungsbedarfe. Die Gutachten werden 
dezentral von SonderpädagogInnen geschrieben, welche organisiert sind in 
Zentren für unterstützende Pädagogik (ZuP), bei bestimmten Unterstützungs- 
bedarfen von den Regionalen Beratungs- und Unterstützungszentren (ReBUZ). 
Orientierungsgebend bei der Verfassung eines Gutachtens ist die Erste Verord- 
nung für unterstützende Pädagogik (EVuP, 2013°°). Hinweise auf eine Intelli- 
genzdiagnostik, die Anwendung von Intelligenztests oder Hinweise auf die 
Anwendung von standardisierten Verfahren liegen nicht vor. Vielfach wird Be- 
zug genommen auf die Förderdiagnostik zur Erkennung sonderpädagogischer 
Förderbedarfe (ebd., $ 9£.). 

Das Hamburgische Schulgesetz regelt in Hamburg den Ablauf einer Gutach- 
tenerstellung ($ 12 HmbSG Abs. 3) im Allgemeinen. Im Speziellen regeln Hand- 
reichungen die Anwendung von Intelligenztests. Ein vertieftes Diagnostikver- 
fahren wird durch die Regionalen Bildungs- und Beratungszentren (ReBBZ) 
durchgeführt, unter anderem mit „geeigneten Testverfahren“ (Behörde für 
Schule und Berufsbildung, 2017, S. 2). Diese sind in weiteren Handreichungen 
spezifiziert, z.B. WNV, WISC-IV, SON-R 6-40, KABC-I oder IDS im Dia- 
gnosebogen Lernen (Behörde für Schule und Berufsbildung, 2016, S. 2), in dem 
ausdrücklich festgehalten ist, dass eines der Verfahren durchgeführt werden 
„muss“ (ebd., S. 2). In einer Liste der Testverfahren zur Diagnostik bei Förder- 
bedarf Lernen, Sprache sowie emotionale und soziale Entwicklung (Behörde für 
Schule und Berufsbildung, 2014) sind für die in Hamburg arbeitenden Sonder- 
pädagogInnen neben Intelligenztests auch andere Tests aufgeführt, entspre- 


49 MBJS: Land Brandenburg: Ministerium für Bildung, Jugend und Sport. 

50 In vielen privaten E-Mails wird sinngemäß für mehrere Bundesländer erwähnt, dass an 
neuen Bestimmungen gearbeitet wird. Einschränkend zu den Ausführungen kann ange- 
merkt werden, dass nach Ende dieser Arbeit sich einige der Bestimmungen zur Feststel- 
lung sonderpädagogischen Unterstützungsbedarfs geändert haben können. Die EVuP für 
Bremen z.B. läuft Ende Juli 19 aus, eine Nachfolgeverordnung ist zum Zeitpunkt des 
Schreibens dieser Arbeit nicht erkennbar. 
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chend der Fragestellungen und inkl. einer Kurzbeschreibung der Tests und An- 
gaben zu den Bezugsquellen. 

Sonderpädagogische Gutachten werden in Hessen nicht mehr geschrieben, 
lediglich Stellungnahmen. Zwar gibt es Handreichungen mit regionaler Gültig- 
keit, die jedoch selbst erstellt sind und ohne Zitierfähigkeit (keine Hinweise auf 
die VerfasserInnen, keine Jahresangaben). In einer persönlichen E-Mail eines 
Mitarbeiters des Hessischen Kultusministeriums (D. Bognar, persönliche Kom- 
munikation, 31.1.2019) wird mitgeteilt, dass es keine Listen mit Intelligenztest- 
Empfehlungen gibt und die Anwendung der Tests in der Entscheidung der 
Förderschullehrkraft liegt. Grundlage für die Erstellung der Stellungnahmen ist 
die Verordnung über Unterricht, Erziehung und sonderpädagogische Förderung 
von Schülerinnen und Schülern mit Beeinträchtigungen oder Behinderungen 
(VOSB) vom 15.6.2012. Da die Stellungnahmen nach Aktenlage erfolgen ($ 9 
VOSB Abs. 1), sind dementsprechend keine Hinweise für selbst durchzufüh- 
rende diagnostische Verfahren zu entnehmen. 

In Mecklenburg-Vorpommern wiederum sind die Vorgaben zur Anwendung 
von Intelligenztests im Rahmen von Begutachtungen in einer Handreichung im 
Detail beschrieben. Die Standards der Diagnostik (Ministerium für Bildung, 
Wissenschaft und Kultur, 2015), empfehlen nicht nur konkrete Testverfahren, 
es wird in der Handreichung explizit zur Würdigung und Beachtung der zu den 
Testverfahren gehörenden Testgütekriterien aufgefordert (ebd., S. 12). So soll- 
ten die Verfahren Splitt-half-Retest- und Konsistenz-Reliabilitäten auf der Ge- 
samttestergebnisebene nicht unter r = .91 und externe Validitätskoeffizienten 
bei r = .50 liegen. Durchzuführende Testverfahren werden vorgeschlagen ent- 
sprechend der Förderbedarfe und entsprechend der Schulstufen. Für den Be- 
reich Lernen wird z.B. für die Sekundarstufe 1 WISC-IV, KFT 4-12+R und 
AID 3 (ebd., S. 16) empfohlen. Darüber hinaus gibt es in einer Kriterienüber- 
sicht Hinweise, wie die Testergebnisse zu interpretieren und ob daraus Förder- 
bedarfe abzuleiten sind, z.B. kein IQ von kleiner oder gleich 70 für den Förder- 
bedarf Lernen (ebd., S. 17). 

Die Verordnung zum Bedarf an sonderpädagogischer Unterstützung vom 
22. Januar 2013°! regelt verbindlich den Rahmen für die Erstellung eines son- 
derpädagogischen Gutachtens in Niedersachsen. Dieser Verordnung sind keine 
Empfehlungen für die Anwendung von Intelligenztests zu entnehmen. In Stel- 
lungnahmen von MitarbeiterInnen der Landesschulbehörden wird darauf hin- 
gewiesen, dass es den Sonderpädagoglnnen freigestellt ist, Intelligenztests durch- 
zuführen (J. Rath-Groneick, Regionalabteilung Osnabrück, private Kommuni- 
kation, 25.1.2019) und dessen Anwendung in den Hintergrund getreten sei 


51 Nds.GVBl. Nr. 2/2013 S. 23; SVBl. 2/2013 S. 67 - VORIS 22410. 
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(D. Christmann, Regionalabteilung Lüneburg, private Kommunikation, 25.1. 
2019). 

In Nordrhein- Westfalen ist die Verordnung über die sonderpädagogische För- 
derung, den Hausunterricht und die Schule für Kranke (AO-SF) Grundlage für 
die Erstellung eines Gutachtens”. Gutachten werden im Team (eine sonder- 
pädagogische und eine weitere Lehrkraft der allgemeinbildenden Schulen) durch- 
geführt. Verbindliche Hinweise zur Anwendung von Intelligenztests sind für 
das Bundesland nicht zu entnehmen. Diese Verordnung als übergeordnetes 
Gerüst lässt Spielraum für die regionale Gestaltung im Umgang mit standardi- 
sierten Verfahren, sowohl auf der Ebene der fünf Regierungsbezirke als auch 
auf Ebene der Schulämter. In einer Handreichung der Bezirksregierung Müns- 
ter für die Sekundarstufe I (2017) können z.B. Aussagen über „Testdurchfüh- 
rungen und Auswertungen“ vorgenommen werden (ebd., S. 20), verbunden mit 
dem Hinweis, dass „immer aktuelle Tests“ verwendet werden sollen (ebd., 
S.21). In einem Leitfaden der Schulämter Bochum und Herne (Schulämter 
Bochum und Herne, 2015) wird bei Vorliegen einer intellektuellen Beeinträch- 
tigung die Durchführung eines Intelligenztests empfohlen, es ist jedoch aus- 
drücklich erwähnt, dass ein „verbindliches Instrumentarium standardisierter 
Verfahren“ nicht vorgegeben wird (ebd., S.39). In einem Leitfaden der Stadt 
Dortmund ist beschrieben, dass Intelligenztests eingesetzt werden können, es 
wird jedoch auch darauf hingewiesen, dass diese alleine nicht für eine differen- 
zierte Wahrnehmung des Kinds ausreichen (Schulamt für die Stadt Dortmund, 
2010, S. 13). Die AO-SF ermöglicht eine individuelle Gestaltung im Umgang 
mit Intelligenztests, allerdings scheint dies insbesondere in Nordrhein-Westfa- 
len zu stark regionalen Unterschieden in der Anwendung zu führen. 

In der Schulordnung für die öffentlichen Sonderschulen (SoSchulO RP, gültig 
ab 30.8.2006) wird der Ablauf zur Feststellung des sonderpädagogischen För- 
derbedarfs in $ 11 in Rheinland-Pfalz erläutert. Bereits hier wird in Absatz 3 
festgelegt, dass die Feststellung u.a. auch auf den Ergebnissen „anerkannter 
Testverfahren“ beruhen soll. Näheres zum Verfahrensablauf regelt eine Hand- 
reichung zur Feststellung des sonderpädagogischen Förderbedarfs (Bildungs- 
ministerium Rheinland-Pfalz, 2017), in dem auf die Anwendung von Intelli- 
genztests nicht eingegangen wird. Auch für Rheinland-Pfalz sind landesweit 
einheitliche Regelungen zum Umgang mit Intelligenztests nicht erkennbar. 

Im Saarland werden für „Menschen mit Behinderung“ (Ministerium für 
Bildung und Kultur, 2019) kurze Informationen ohne Bezug zur Diagnostik 
angeboten im Zusammenhang mit SchülerInnen mit sonderpädagogischem För- 
derbedarf. In einer Handreichung zur Feststellung sonderpädagogischen För- 


52 Zuletzt geändert am 1. Juli 2016. AO-SF = Ausbildungsordnung sonderpädagogische För- 
derung. 
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derbedarfs (Bildungsserver Saarland, 2019) - orientiert am Schulpflichtgesetz 
(SchpflG § 6 Abs. 1 und 2) - wird dementsprechend die „sonderpädagogische 
Förderdiagnostik“ beschrieben als „Kind-Umfeld-Analyse“ (ebd., S. 1). Stan- 
dardisierte Testverfahren finden keine Erwähnung. 

In Sachsen-Anhalt ist die Verordnung über die Förderung von Schülerinnen 
und Schülern mit sonderpädagogischem Bildungs-, Beratungs- und Unterstüt- 
zungsbedarf (SoPädFV ST 2013 Abschnitt 2 $ 4, Fassung vom 8. August 2013) 
bindend bei der Feststellung sonderpädagogischen Förderbedarfs und bildet 
den übergeordneten Rahmen für die Gutachtenerstellung. Der Zeitraum von 
der Antragstellung bis zum 10. Januar eines Jahres bis zur Entscheidung der 
Landesschulbehörde bis zum 20. Mai eines Jahres (ebd.) verdeutlicht die Zeit- 
spanne, in denen Tests ausgeliehen, geprobt bzw. gelernt und durchgeführt 
werden können. Das vom Mobilen Sonderpädagogischen Diagnostischen Dienst 
durchgeführte Gutachten orientiert sich an der Handreichung zur sonderpäd- 
agogischen Förderung in Sachsen-Anhalt (Kultusministerium Sachsen-Anhalt, 
o.J.), in denen der Einsatz eines Intelligenztests ausdrücklich bei entsprechen- 
den Fragestellungen empfohlen wird (ebd., S. 24). Es wird jedoch auch darauf 
hingewiesen, den „Einfluss der Intelligenz auf den Lernerfolg nicht zu über- 
schätzen“ (ebd., S. 24). Intelligenztests werden namentlich vorgeschlagen, z.B. 
der HAWIK-IV (ebd., S. 135), der SON-R 5%-17, der AID II (ebd., S. 146) oder 
der CFT 20 bzw. CFT 1 (ebd., S. 146). Für die meisten der vorgeschlagenen In- 
telligenztests liegen allerdings inzwischen neuere Fassungen vor. 

Die Verordnung des Sächsischen Staatsministeriums für Kultus über För- 
derschulen im Freistaat Sachsen (SOFS°) regelt in Abschnitt 2 von $ 13 bis $ 17 
das Verfahren zur Feststellung sonderpädagogischen Förderbedarfs, durchge- 
führt in der Regel auch in Sachsen durch einen Mobilen Sonderpädagogischen 
Dienst. Dort ist beschrieben, dass die oberste Schulaufsichtsbehörde Vorgaben 
zu „einheitlichen landesweit einzusetzenden standardisierten Testverfahren ver- 
öffentlichen“ kann (SOFS Abs. 2 $ 13). Als Download werden als Hilfestellung 
das Handbuch zur Förderdiagnostik bereitgestellt (Staatsministerium für Kultus 
Sachsen, 2005) sowie die Material- und Methodensammlung zur Förderdiagnos- 
tik (Sächsisches Staatsinstitut für Bildung und Schulentwicklung, 2005), dessen 
Anhang Listen von Testverfahren zu entnehmen sind, die zum Zeitpunkt der 
Veröffentlichung aktuell waren. 

In Schleswig-Holstein ist die Landesverordnung über sonderpädagogische 
Förderung (SoFVO) vom 8. Juni 2018 Grundlage für die Gutachtenerstellung 
zur Feststellung sonderpädagogischen Förderbedarfs, näher geregelt in $4 und 
durchgeführt von den Förderzentren des Landes. Es wird beschrieben, dass ein 


53 SOFS = Schulordnung Förderschulen (SächsGVBI S. 317 vom 3.8.2004, letzte Fassung 
gültig ab 1.8.2019). 
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Gutachten alle Umstände berücksichtigt, die für eine sonderpädagogische För- 
derung von Bedeutung sind (SoFVO $4 Abs. 4), konkrete Hinweise über den 
Umgang mit standardisierten Verfahren sind der Verordnung nicht zu entneh- 
men. Offizielle Listen mit empfohlenen Intelligenztests gibt es nicht, jedoch be- 
steht die Möglichkeit, auf Nachfrage Empfehlungen mit aktuellen Testverfahren 
beim Institut für Qualitätsentwicklung an Schulen (IQSH) zu erfragen (B. Ebert, 
Koordinator Diagnostik im Schulartteam Sonderpädagogik des IQSH, 24.1. 
2019). In der Broschüre Wissenswertes über Sonderpädagogik in Schleswig- 
Holstein (Institut für Qualitätsentwicklung an Schulen, 2016) werden norm- 
orientierte Verfahren wie Intelligenztests zur Feststellung des Förderbedarfs 
Lernen als eine Möglichkeit der „diagnostischen Herangehensweise“ genannt 
(ebd., S. 27). 

Grundlage in Thüringen zur Feststellung des sonderpädagogischen Förder- 
bedarfs ist der 3. Abschnitt der Thüringer Verordnung zur sonderpädagogi- 
schen Förderung (ThürSoFöV vom 6. April 2004, geändert am 26. Mai 2009). 
Hinweise zur Anwendung standardisierter Testverfahren sind in dieser Verord- 
nung nicht enthalten. Konkretere Hinweise sind hier dem Thüringer Diagnos- 
tikkonzept zur Qualitätssicherung (Vernooij, 2013) zu entnehmen, in dem die 
Anwendung von Intelligenztests beschrieben wird (ebd., S. 11) und Hinweise zur 
Interpretation von Intelligenztestergebnissen vorgestellt werden (ebd., S. 15£.). 
In der Durchführung möglicher Intelligenztests werden unter Angabe der je- 
weiligen Testdauer und kurzen Beschreibungen Tests tabellarisch aufgeführt 
(ebd., S. 20), jedoch gibt es für jeden der drei beschriebenen Intelligenztests in- 
zwischen Nachfolgeversionen. In einer Handreichung für den Gemeinsamen 
Unterricht (Ministerium für Bildung, Wissenschaft und Kultur, 2013), wird un- 
ter Berufung auf das Thüringer Diagnostikkonzept nach Vernooij festgelegt, 
dass die Anwendung von standardisierten Testverfahren vereinheitlicht und 
unter Festlegung auf bestimmte Testverfahren vergleichbar wird (Ministerium 
für Bildung, Wissenschaft und Kultur, 2013, S. 12). 


Zusammengefasst kann festgestellt werden, dass der offizielle Umgang mit In- 
telligenztests auf Landesebene sehr unterschiedlich geregelt ist. In einigen Bun- 
desländern gibt es nur wenige bis gar keine Hinweise dazu, in anderen Bundes- 
ländern gibt es Listen mit Intelligenztests, die anzuwenden sind, in Mecklen- 
burg-Vorpommern gar Vorgaben zu den Testgütekriterien der Tests, die zu 
beachten sind. In einigen der Bundesländer, die konkrete Tests empfehlen, fällt 
auf, dass die empfohlenen Tests veraltet sind. 

Für einen Widerspruch von Gaus und Drieschners Feststellung, dass das 
Bildungssystem weniger einer internen Logik folgt, eher als labil chaotisches 
und lose gekoppeltes System bezeichnet werden kann (2014, S. 29), fehlt es be- 
züglich der Anwendung von Intelligenztests in der Tat an Befunden. Es kann 
also vom Bundesland abhängen, ob, in welchem Rahmen und womit ein Kind 
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getestet wird und es sind Unterschiede bezüglich empfundener Schwierigkeiten 
zwischen den Bundesländern möglich, dessen Erkennen für das Ableiten von 
Empfehlungen bezüglich des Umgangs mit Intelligenztests hilfreich sein kann. 


2.5.6 Antwort- und Verzerrungstendenzen, Beobachtungsfehler 
und TestleiterInneneffekte 


Unabhängig von der Leistung eines Kinds kann das Testergebnis von der Per- 
son beeinflusst werden, die testet, von der Situation, in der getestet wird und 
von Einstellungen des Kinds. Dies gilt sowohl bei der Beantwortung eines Frage- 
bogens, aber auch bei der Anwendung eines Intelligenztests. Kubinger (20095) 
konnte in einem Versuch nachweisen, dass TestleiterInnen Einfluss auf das 
Testergebnis haben können. Kinder wurden zweimal von unterschiedlichen 
Personen getestet, es kamen teils abweichende Ergebnisse heraus bis zu 6 IQ 
Punkte (die nicht aus dem Übungseffekt resultierten)*. 

Effekte, die ein Ergebnis beeinflussen können, müssen bei der Interpretation 
berücksichtigt werden. Sie stehen im engen Zusammenhang mit den Testergeb- 
nissen, da sie diese negativ beeinflussen. Diese Effekte gehören zweifelsohne zu 
den Schwierigkeiten bei der Anwendung standardisierter Tests. 

Würde eine Klassenlehrerin ein Kind mit einem Persönlichkeitstest befra- 
gen und die Fragen vorlesen, würde ein Kind auf die Frage, hast du schon ein- 
mal bei einer Klassenarbeit geschummelt, evtl. sozial erwünscht antworten, um 
negative Konsequenzen zu vermeiden. Die Soziale Erwünschtheit ist eines der 
bedeutsamsten Effekte, die Testergebnisse verzerren können und könnte be- 
schrieben werden mit einer Antworttendenz, die beeinflusst ist von dem 
Wunsch, den erwarteten Vorstellungen der TestleiterIn zu entsprechen. Beson- 
ders bei Persönlichkeitstests mit einer direkten Befragung der ProbandInnen ist 
die Gefahr dieser Verzerrung groß und entsprechend sollte den ProbandInnen 
versichert werden, dass jede Antwort legitim ist, dass es kein richtig oder falsch 
gibt, dass spontan geantwortet werden sollte usw. Doch auch bei vermeintlich 
standardisierten Intelligenztests kann Soziale Erwünschtheit auftreten. Auf die 
Frage, was tust du, wenn du in einem Geschäft eine Geldbörse findest (WISC-IV, 
Subtest allgemeines Verständnis), haben Kinder zuweilen sinngemäß in Test- 
situationen mit soll ich dir sagen, was ich mache oder was du hören möchtest ge- 
antwortet. Selfenhancement könnte als eine Form von Sozialer Erwünschtheit 
beschrieben werden, allerdings wäre die Verzerrung von dem bewussten oder 


54 Es kann eingewendet werden, dass eine Differenz von 6 IQ-Punkten in der Regel keine 
wirklichen kritischen Differenzen darstellen müssen, sondern den grundsätzlich anzu- 
nehmenden Messungenauigkeiten geschuldet sein können. 
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unbewussten Wunsch geleitet, wie man sich selber gerne hätte oder wahr- 
nimmt, auch wenn dies der Realität nicht entspricht. 

In der folgenden Übersicht werden neben Sozialer Erwünschtheit und Self- 
enhancement Effekte beschrieben, die Einfluss nehmen können auf Testergeb- 
nisse. Bei der folgenden Liste Einfluss nehmender und in der Literatur meist als 
TestleiterInneneffekte oder Beobachtungsfehler beschriebenen Variablen han- 
delt es sich um eine Auswahl der meist beschriebenen Effekte. 

Doch zunächst soll genauer begründet werden, warum TestleiterInneneffek- 
te bzw. Beobachtungsfehler aufgeführt werden und im Zusammenhang mit die- 
ser Forschungsarbeit stehen. Es gibt zweifelsohne eine Vielzahl von Variablen, 
die Einfluss nehmen können auf das Testergebnis und nicht zuletzt diese For- 
schungsarbeit untersucht einige dieser Variablen. Im Sinne der Klassischen 
Testtheorie sind dies Messfehler, möglich sind auch bewusst herbeigeführte 
und den standardisierten Ablauf gefährdende Veränderungen durch Testlei- 
terInnen usw. 

TestleiterInneneffekte stellen eine weitere Gruppe von Gefährdungen dar, 
die ein Testergebnis weiter weg vom wahren Ergebnis führen könnten. Zwar ist 
es schwierig, Effekte wie die Soziale Erwünschtheit objektiv zu erfassen und für 
viele der weiter unten beschriebenen Effekte müsste man in die Köpfe der Pro- 
bandInnen schauen können, um bestimmen zu können, ob ein Effekt auftritt 
oder nicht. Dennoch bleibt unbestritten, dass TestleiterInneneffekte bzw. Beob- 
achtungsfehler ein Ergebnis beeinflussen können. Zu einer umfassenden Wür- 
digung von Testergebnissen sollten - so gut es geht - alle Variablen genannt 
werden, die in der Testsituation Einfluss nehmen können. 

Ein weiterer Grund für die Beschäftigung mit den Effekten liegt darin be- 
gründet, dass diese Effekte sowohl in der Testsituation auftreten können als 
auch bei der Beantwortung des Fragebogens, welcher Grundlage dieser Unter- 
suchung ist. Auch die SonderpädagoglInnen, die sich an dieser Untersuchung 
beteiligen, sind evtl. durch die Effekte beeinflusst, z.B. bei einer Tendenz zum 
Extremen. Untersuchungsergebnisse dieser Forschungsarbeit können also be- 
einflusst sein durch die im Folgenden beschriebenen Effekte. Deshalb wäre es 
eine Vernachlässigung, würden die Beschreibungen von Untersuchungsergeb- 
nissen beeinflussenden Variablen ausgespart bleiben. 

Zunächst sollen wichtige TestleiterInneneffekte bzw. Beobachtungsfehler 
beschrieben werden, im Anschluss soll eine Einordnung vorgenommen wer- 
den, aus der ersichtlich wird, ob diese Effekte in der Testsituation (Sonderpäd- 
agogln testet Kind) oder beim Ausfüllen des Fragebogens dieser Untersuchung 
auftreten können oder beides. Somit ist dieses letzte Kapitel des theoretischen 
Teils das Bindeglied zwischen dem Theorie- und Methodenteil. 


e Tendenz zur Mitte: Bei mehrstufigen Skalen wie der Likert-Skala kennzeich- 
net dies ein Antwortverhalten, welches die mittlere Antwort bevorzugt. Dies 
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könnte aus einer Verunsicherung über die richtige Antwort resultieren und 
mit einer ungeraden Anzahl von Antwortmöglichkeiten verhindert werden. 
Resultiert die Tendenz zur Mitte aus der Einschätzung, keine passende Ant- 
wort unter den vorgegebenen Möglichkeiten gefunden zu haben, wäre eine 
ergänzende offene Antwortmöglichkeit (z.B. ein Feld mit der Beschriftung 
Sonstiges oder Anmerkungen) sinnvoll. Eine Tendenz zur Mitte lässt sich 
über eine statistisch festgestellte geringe Varianz nachweisen (Schmidt-At- 
zert & Amelang, 2012). 

Tendenz zum Extremen: Werden bei mehrstufigen Skalen die Antworten an 
den Rändern gewählt, würde dies die Varianz erhöhen (Häufigkeitsvertei- 
lungen hätten eine U-Form). 

Skalenorientierung: Es besteht eine geringe Tendenz bei Fragebögen, die 
Antwortkategorien links zu bevorzugen (Tourangeau, Rips & Rasinski, 
2000), sozusagen der erste Eindruck”. Deutlichere Effekte bestehen bei ei- 
ner vertikalen Darstellung der Ratingskalen (Krosnick & Alwin, 1987). 
Milde-Effekt: Die Tendenz einer milden Beurteilung kann z.B. bei der Be- 
antwortung eines Verhaltensfragebogens dazu führen, problembezogene 
Items milde zu bewerten mit der Folge eines negativ-falschen Ergebnisses 
(vorhandene Auffälligkeiten werden nicht erkannt). Bei einem Evaluations- 
bogen nach einem Seminar kann es bei einem sympathisch wirkenden Se- 
minarleiter dazu führen, dass eine Veranstaltung zu positiv bewertet wird. 
Der Milde-Effekt wird mit einer Furcht vor einer zu negativen Beurteilung 
assoziiert (Schmidt-Atzert & Amelang, 2012). 

Härte-Effekt (Strenge-Effekt): Bei einer strengen Bewertung ist es z.B. mög- 
lich, beim Ausfüllen eines Fragebogens diesen zu instrumentalisieren, um 
vorhandene Verhaltensauffälligkeiten eines Kinds unverhältnismäßig her- 
vorzuheben. Bei einem Evaluationsbogen nach einem Seminar kann es bei 
einem unsympathisch wirkenden Seminarleiter dazu führen, dass eine Ver- 
anstaltung zu negativ bewertet wird. Würde die Bewertungstendenz (sowohl 
beim Milde- als auch beim Härte-Effekt) an den erwarteten Nutzen ange- 
passt, kann dies mit strategischer Selbstdarstellung umschrieben werden 
(ebd., S. 249). 

Rosenthal-Effekt (Versuchsleiter-Artefakt; Pygmalion-Effekt): Im Sinne einer 
selbsterfüllenden Prophezeiung (selffulfilling prophecy, Merton, 1948) ent- 
sprechen ProbandInnen den Erwartungen der TestleiterInnen. Rosenthal 
und Fode (1963) wiesen in einem Experiment nach, dass der Glaube von 
Studierenden an besondere Fähigkeiten von Ratten dazu führte, dass diese 
(willkürlich ausgewählten) Ratten durch die höhere Erwartungshaltung tat- 
sächlich höhere Leistungen erzielten. Lernschwache und Intelligenzgemin- 
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Wobei der primacy-effekt im Zusammenhang dieses Kapitels etwas anderes meint (s. u.). 


derte Kinder werden in der Regel im Rahmen der sonderpädagogischen Un- 
terstützungsbedarfe Lernen und Geistige Entwicklung beschult, hier ist das 
Experiment von Rosenthal und Jacobson (1968) in einer Grundschule inter- 
essant: LehrerInnen wurde vorgetäuscht, nach einem Test besonders leis- 
tungsstarke und weniger leistungsstarke Kinder erkannt zu haben. Den 
Lehrkräften wurden jedoch imaginäre Ergebnisse mitgeteilt. Tatsächlich 
wurde ein Intelligenztest durchgeführt und acht Monate nach der Mitteilung 
an die Lehrkräfte über die erfundenen Leistungskompetenzen ein weiterer. 
Nur erklärbar durch die Erwartungshaltung - denn alle Rahmenbedin- 
gungen sind gleichgeblieben - hat sich der Gesamtwert der Intelligenztes- 
tung der vermeintlich starken SchülerInnen verbessert”. Allerdings hat sich 
- wenn auch geringer - der Gesamtwert der vermeintlich schwachen Schü- 
lerInnen ebenfalls verbessert. Es ist möglich, dass sich der Skandal um Ne- 
nad Mihailovic (Süddeutsche Zeitung, 2017) mit dem Rosenthal-Effekt er- 
klären lässt. Als Kind wurde Herr Mihailovic falsch mit einem Intelligenz- 
test (K-ABC) getestet. Er erzielte weit unterdurchschnittliche Ergebnisse. 
Ihm wurde auf dem Testergebnis basierend der falsche Unterstützungsbe- 
darf attestiert und infolgedessen jahrelang in einer Schule mit dem Schwer- 
punkt Geistige Entwicklung falsch beschult. Mit guter Aussicht auf Erfolg 
hat er das Land NRW verklagt”. Erstaunlich ist, dass in den Jahren der Be- 
schulung nicht erkannt wurde, dass Nenad Mihailovic weder eine Intelli- 
genzminderung noch eine Lernbeeinträchtigung hatte, die Lehrkräfte aber 
auf Grund der Testergebnisse davon ausgehen mussten und möglicherweise 
eine entsprechende Erwartungshaltung hatten. Der Rosenthal-Effekt ist für 
die Testsituation im Rahmen der Intelligenzdiagnostik von besonderer Be- 
deutung, denn es könnte sein, dass die Kinder einer Erwartungshaltung 
oder einer Rollenzuweisung der TestleiterInnen entsprechen und agieren. 
Es könnte vorteilhaft sein, würden die TestleiterInnen weder das Kind gut 
kennen noch ausführliche Anamnese-Gespräche vorher geführt haben. 
Baudson (2011) misst dem Rosenthal- bzw. Pygmalion-Effekt weniger Be- 
deutung zu als er nach Veröffentlichung der entsprechenden Studien hatte 
und beschreibt ihn als im Durchschnitt gering und wenig stabil, wenn auch 
als nachgewiesen existent (ebd., S.9). In der Medizin werden zur Vermei- 
dung des Rosenthal-Effekts bevorzugt Doppel-Blindstudien durchgeführt. 

e  Beobachterdrift: Vor allem in Beobachtungssituationen kann dies mit einem 
zunehmend oder partiellen unaufmerksamen (in der Aufmerksamkeit ab- 
driftenden) Zustand der TestleiterIn beschrieben werden. Bei der Anwen- 
dung eines Intelligenztests ist die Beobachtung jedoch auch wesentlicher 


56 Am deutlichsten bei den gutaussehenden. 
57 Anmerkung 28.7.19: Die Klage war erfolgreich. 
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Bestandteil und gibt für die Interpretation der Testergebnisse wichtige Hin- 
weise, z. B., ob ein Kind aus gemachten Fehlern günstige Rückschlüsse zieht, 
ob es Problemlösungsstrategien entwickelt usw. 

Reaktivität: Beschreibt das Reagieren oder die Veränderung im Verhalten 
der ProbandInnen auf die TestleiterIn, z.B. auf die Kleidung oder das Ge- 
schlecht. Abhängig vom Geschlecht der TestleiterIn könnten ProbandIn- 
nen unterschiedlich agieren, z.B. eine geringere Compliance gegenüber 
Frauen zeigen, wenn das Kind aus einem sehr patriarchal geprägten Milieu 
kommt oder voreingenommen gegenüber Männern sein, wenn das Kind se- 
xualisierte Gewalterfahrungen erlitten hatte und Männer mit dem Täter- 
geschlecht assoziiert. 

Übungseffekt (Lerneffekt): Bei der wiederholten Anwendung von Intelligenz- 
tests kann es zu höheren Ergebnissen als Ergebnis von Lernprozessen und 
Übung kommen. Es ist möglich, dass sich Kinder an die Art und Weise bei 
der Bearbeitung von Items aus Subtests erinnern (weniger an die Items 
selbst) bei einer Retestung. Es ist aber auch möglich, dass Kinder eine gewis- 
se Erfahrung im Umgang mit Testverfahren entwickeln und deshalb souve- 
räner damit umgehen können. Übungseffekte bei Testwiederholungen sind 
nicht umstritten und vielfach belegt (u.a. Kubinger, 2009b; Bühner, Ziegler, 
Bohnes & Lauterbach, 2006; Hausknecht, Halpert, Di Paolo & Gerrard, 
2007). 

Primacy-/Regency-Effekt: Dieser Effekt beschreibt den Einfluss auf eine Be- 
urteilerIn, die am Anfang bzw. am Ende der Beobachtungssituation ge- 
macht werden. Im Rahmen einer Intelligenzdiagnostik könnte dies nach 
dem einführenden Gespräch vor einer Testung, welches in der Regel zum 
Aufwärmen und Kennenlernen durchgeführt wird, die Erwartungshaltung 
der TestleiterIn beeinflussen, da ein erster Eindruck dazu führen könnte, 
erste Hypothesen bestätigt zu bekommen (Schmidt-Atzert & Amelang, 
2012). Im Zusammenhang mit der Anwendung von Intelligenztests ist der 
Primacy-Effekt von größerer Bedeutung als der Regency-Effekt, da der letzte 
Eindruck weniger Einfluss nehmen kann bei der Anwendung eines standar- 
disierten Tests. 

Hawthorne-Effekt: Dieser Effekt beschreibt Verhaltensänderungen bei dem 
Wissen, unter Beobachtung zu stehen, z.B. im Rahmen einer Intelligenztes- 
tung. Dieser Effekt geht zurück auf die berühmte Hawthorne Studie (Mayo, 
1930, 1933; Roethlisberger & Dickson, 1939). In der Hawthorne Fabrik in 
den USA wurde in den 20er/30er Jahren festgestellt, dass Arbeiterinnen ihre 
Produktivität ohne Veränderung der Rahmenbedingungen steigerten als 
Folge des Glaubens daran, an einer wichtigen Studie teilzunehmen und un- 
ter Beobachtung zu stehen. Obwohl die Studie methodisch umstritten ist 
(Walter-Busch, 1989), bewirkte sie in der Arbeitspsychologie nicht nur ein 
Umdenken in der Betrachtung von Arbeit und Arbeitsbedingungen auf das 


Wohlbefinden, sondern beschreibt in der psychologischen Diagnostik Ver- 
zerrungseffekte auf Grund des Gefühls, unter Beobachtung zu stehen. 

e Halo-Effekt (Hofeffekt): Dieser Effekt beschreibt das Überstrahlen (Schmidt- 
Atzert & Amelang, 2012, S. 320) eines Merkmals einer Person auf andere 
Merkmale, infolgedessen es zu vorschnellen oder falschen Urteilsbildungen 
kommen kann. Zeigt ein Kind z.B. sehr gute sprachliche Kompetenzen 
während einer Testung, kann es zu einer ungünstigen Verknüpfung über 
die Annahme intellektueller Kompetenzen führen, da vermeintlich ange- 
nommen wird, Kinder mit einem elaborierten Sprachcode sind intelligent. 


Die beschriebenen Effekte können sowohl Einfluss bei der Anwendung eines 
Intelligenztests nehmen, aber auch bei der Beantwortung des dieser Arbeit zu 
Grunde liegenden Fragebogens. Tabelle 9 schätzt mögliche Effekte auf diese 
beiden Situationen ein. 


Tabelle 9. Mögliche Effekte, die bei der Anwendung von Intelligenztests bzw. bei der 
Beantwortung des Untersuchungsfragebogens auftreten können. 


Selfenhancement 
Soziale Erwünschtheit 
Tendenz zur Mitte 
Tendenz zum Extremen 


Skalenorientierung 


Milde-Effekt 


Härte-Effekt (Strenge-Effekt) 
Rosenthal-Effekt 
Beobachterdrift 


Reaktivität 


Übungseffekt 
Primacy-/Regency-Effekt 
Hawthorne-Effekt 


Halo-Effekt 


Effekt kann bei Anwendung eines 
Intelligenztests auftreten 


ja 

ja 

bei Auswahlitems 
bei Auswahlitems 
nein 

nein 

nein 

ja 
ja 
ja 
ja 
ja 


ja 


haltung) 


ja (durch Änderung der Erwartungs- 


Effekt kann beim Ausfüllen des 
(Untersuchungs-)Fragebogens 
auftreten 


ja 
ja 
ja 
ja 
gering 


ja 


ja 
nein 
nein 


ja, wenn Untersucher persönlich 
bekannt 


ohne Bedeutung 
nein 
ja 


nein 
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3 _ Forschungsfragen 


Die Anwendung von Intelligenztests in der Sonderpädagogik ist ein umfangrei- 
ches Thema und benötigt eine Reduzierung auf Aspekte, die im Rahmen einer 
wissenschaftlichen Studie zu bewältigen sind. 

Intelligenz, Intelligenzdiagnostik, Arbeitsbedingungen in der Sonderpäd- 
agogik, die diagnostische universitäre Ausbildung von SonderpädagogInnen, die 
Möglichkeiten von Ableitungen pädagogischer (Förder-)Maßnahmen aus Test- 
ergebnissen, die generelle diagnostische Qualifikation von Sonderpädagogln- 
nen und die Legitimation von Intelligenztests im sonderpädagogischen Kontext 
sind nicht Gegenstand dieser Untersuchung, sondern jeweils Teilbereiche im 
weiteren Zusammenhang mit dem Forschungsgegenstand. 

Die übergeordnete Frage lautet, ob in der Sonderpädagogik Intelligenztests 
unter Bedingungen durchgeführt werden, die die Durchführungs- und Auswer- 
tungsobjektivität gefährden und somit die Gefahr falsch ermittelter Testergeb- 
nisse mit der daraus resultierenden Gefahr der Stigmatisierung. In diesem Zu- 
sammenhang sind die eingangs erwähnten Bereiche von Bedeutung. Es wird 
z.B. nicht in Gänze untersucht werden können, wie genau die universitäre Aus- 
bildung diagnostische Inhalte vermittelt, sondern ob und wie Basisbegriffe im 
Zusammenhang mit standardisierten Tests vermittelt werden und wie sich dies 
auf beschriebene Schwierigkeiten bei der Anwendung von Intelligenztests in 
der Praxis auswirkt. 

Die von SonderpädagogInnen häufig eingesetzten Intelligenztests benötigen 
für die Anwendung nach den Regeln der Kunst (z.B. Zeit für die Durchfüh- 
rung, Zeit für die Vorbereitung, angemessene Testräume usw.) einen struktu- 
rellen Rahmen, aber auch eine angemessene universitäre Ausbildung. 

Zudem sind für die Durchführung, Auswertung und Interpretation testtheo- 
retische Kenntnisse sowie Kenntnisse über die den Tests zugrunde liegenden 
Intelligenzmodelle notwendig. Da die Anwendung von teils aufwändig konstru- 
ierten Intelligenztests nur ein kleiner Ausschnitt der vielfältigen Tätigkeitsfelder 
von SonderpädagoglInnen darstellt, werden Problematiken bei der Anwendung 
von Intelligenztests im sonderpädagogischen Kontext angenommen und sind 
bereits beschrieben worden (Huber, 1999, 2000; Müller, 2009; Bundschuh, 
2010; Staud & Staud, 2011). 

Um evtl. notwendige Veränderungen in der universitären Ausbildung und 
eine evtl. notwendige Veränderung im strukturellen Rahmen zu diskutieren, in 
dem Intelligenztests angewendet werden, soll geklärt werden, ob angenommene 
Problematiken tatsächlich vorhanden sind. Sollte sich diese Forschungsfrage be- 
stätigen, ist weiterhin zu analysieren, welche Problematiken im Detail vorliegen. 
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Über den deskriptiven Zugang werden Hinweise auf den Ist-Zustand im 
Umgang mit Intelligenztests vorgestellt. Es wird dargestellt, in welchem Aus- 
maß und unter welchen Bedingungen Intelligenztests Anwendung finden. 

Über die Beschreibung eines Status hinaus sollen mit Hilfe der Inferenzsta- 
tistik verifizierbare Forschungsannahmen bzw. Hypothesen untersucht werden, 
die aus den Forschungsfragen resultieren: 


Forschungsannahme 1 
Es wird erwartet, dass die Aussagekraft eines Tests von der Dimensionalität des 
Verfahrens abhängt. 

Mehrdimensionale Intelligenztests ermöglichen über die Generierung eines 
Gesamtwerts in Form des Generalfaktors der Intelligenz eine Interpretation 
entsprechend dem CHC-Modell auf Stratum-II-Ebene und somit neben dem 
normativen Vergleich eine Ermittlung individueller Stärken und Schwächen, 
aus denen sich Hinweise für pädagogische Maßnahmen bzw. Erklärungsmodel- 
le für beobachtbares Verhalten ableiten lassen. Der unterstellten höheren Nütz- 
lichkeit mehrdimensionaler Tests für das pädagogische Handeln entsprechend 
wird erwartet, dass SonderpädagogInnen mehrdimensionale Intelligenztests als 
aussagekräftiger beurteilen. Obwohl das Ergebnis der Prüfung absehbar ist und 
trivial wirken könnte, ist die Prüfung dieser Annahme die Grundlage für späte- 
re Diskussionen: sollten die an dieser Studie beteiligten SonderpädagogInnen 
mehrdimensionale Intelligenztests als signifikant aussagekräftiger einschätzen, 
dennoch aber überproportional häufig eindimensionale und somit weniger aus- 
sagekräftig eingeschätzte Verfahren einsetzen, wäre zu diskutieren, woran dies 
liegen könnte. Ohne Prüfung dieser Forschungsfrage wäre eine Ungenauigkeit 
in einer möglichen Argumentationskette vorprogrammiert. Würde unterstellt 
werden, dass eindimensionale Verfahren häufiger eingesetzt werden, obwohl 
mehrdimensionale augenscheinlich aussagekräftiger sind, könnte die unterstell- 
te höhere, aber nicht geprüfte Aussagekraft mehrdimensionaler Tests hinter- 
fragt werden. 


Forschungsannahme 2 
Es wird erwartet, dass komplexere Tests seltener angewendet werden. 

Durch die vielfältigen Tätigkeitsfelder von SonderpädagoglInnen stellt die 
Anwendung von Intelligenztests in der Regel eine Ausnahme dar. Komplexe 
Intelligenztests bestehen aus einer Vielzahl von Regeln, dessen Erlernen und bei 
einer seltenen Anwendung Wiedererlernen zeitliche Ressourcen bindet. Deshalb 
ist anzunehmen, dass einfacher zu lernende Intelligenztests präferiert werden.” 


58 Besonders interessant ist, ob dies auch für die KABC-I gilt. In allen von mir durchge- 
führten Seminaren 2016 und 2017 ist die KABC-II der einzige Intelligenztest, für den in- 
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Forschungsannahme 3 
Es wird erwartet, dass SonderpädagoglInnen eine Vorliebe für bestimmte Tests 
haben, auch wenn andere Tests vorhanden sind. 

Bedingt durch die teils schwer zu erlernenden Verfahren wird angenom- 
men, nicht die Auswahl eines Verfahrens zielgenau an das zu testende Kind 
anzupassen (z.B. ein nonverbaler Test für ein nicht deutschsprechendes Kind), 
sondern bestimmte Tests zu favorisieren, dessen Durchführungen bekannt sind 
und weniger Vorbereitung benötigen. Dies hätte allerdings zur Folge, dass das 
Kind sich an den Test anpassen müsste und nicht umgekehrt. 


Forschungsannahme 4 

Es wird erwartet, dass es Unterschiede in der Häufigkeit von Durchführungs- 
fehlern und Beeinträchtigungen in der Testsituation zwischen den Bundeslän- 
dern gibt. 

Bedingt durch das föderale Bildungssystem ist es bundesweit nicht einheit- 
lich geregelt, welche Tests unter welchen Rahmenbedingungen von wem durch- 
geführt werden. Während in Norddeutschland z.B. mehr Kinder inklusiv be- 
schult werden, ist die Umsetzung der Inklusion in den südlicheren Bundesländern 
weniger weit vorangeschritten, was zur Folge hat, dass weniger Sonderpäd- 
agogInnen im Gemeinsamen Unterricht, sondern häufiger in klassischen Kolle- 
gien innerhalb einer Förderschule arbeiten und deshalb einen besseren Zugang 
zu Intelligenztests und zum kollegialen Austausch haben. Die aus dem föde- 
ralen System resultierenden Unterschiede im Bildungsbereich können sich je 
nach politischer Lage zudem temporär innerhalb der Bundesländer verändern. 
So wird in Nordrhein-Westfalen nach einem Regierungswechsel 2017 erwogen, 
weniger Förderschulen aufzulösen bzw. geschlossene wiederzueröffnen. In 
Hamburg sollen im Gemeinsamen Unterricht tätige SonderpädagogInnen wie- 
der komplexere Intelligenztests durchführen. Dies war bisher besonders qualifi- 
zierten SonderpädagogInnen vorbehalten. 

Da es kaum möglich ist, die unterschiedlichen und sich zudem stetig än- 
dernden (Arbeits-)Bedingungen in der Bildungspolitik zu erfassen, resultieren 
auch aus dieser Forschungsannahme ungerichtete Hypothesen. 

Die Forschungsannahme 4 soll präzisiert und in folgende Teilannahmen 
überführt werden: 


e 4.1: Abhängig vom Bundesland stehen unterschiedliche Tests zur Verfü- 
gung. 


dividuelle Schulungen im sonderpädagogischen Kontext (Förderzentren, Förderschulen) 
nachgefragt worden sind. In den letzten 18 Monaten (Stand: 8/17) fanden 44 Tagessemi- 
nare ausschließlich zur KABC-II statt. 
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e 4.2: Abhängig vom Bundesland werden unterschiedlich die Durchfüh- 
rungsobjektivität gefährdende Veränderungen vorgenommen. 

e 4.3: Abhängig vom Bundesland liegen unterschiedliche Beeinträchtigungen 
wie fehlende oder unvollständige Testmaterialien vor. 

e 4.4: Abhängig vom Bundesland liegen unterschiedliche Freiheiten vor zu 
entscheiden, ob ein Intelligenztest durchgeführt werden soll. 

e 4.5: Abhängig vom Bundesland liegen unterschiedliche Schwierigkeiten im 
Umgang mit Durchführungsregeln vor. 

e 4.6: Abhängig vom Bundesland wird die Anwendung von Intelligenztests als 
schwierig bewertet. 

e 4.7: Abhängig vom Bundesland wird die zur Verfügung stehende Zeit für 
die Anwendung als zu kurz bewertet. 


Forschungsannahme 5 

Es wird erwartet, dass sich das Alter der TestleiterInnen auf Schwierigkeiten bei 
der Anwendung von Intelligenztests und auf die Auswahl auswirken. Mit zu- 
nehmendem Alter werden weniger Schwierigkeiten angenommen. 

Im Laufe des (Berufs-)Lebens entwickelt sich Erfahrungswissen. Dies be- 
trifft sowohl die Anwendung von Intelligenztests, die Interpretation von Test- 
ergebnissen als auch das Erfahrungswissen über Kinder. Sollte sich diese Hypo- 
these bestätigen, würde Erfahrungswissen für einen angemesseneren Umgang 
bei der Anwendung von Intelligenztests sprechen und es wäre zu überlegen, wie 
die Erfahrung forciert werden könnte. Allerdings liegen auch Hinweise vor, 
dass vor allem erfahrene TestanwenderInnen für Durchführungsfehler anfälli- 
ger sind (Lipsius et al., 2008). 

Weiter kann angenommen werden, dass durch die Vertrautheit mit bekann- 
ten Verfahren eine Präferenz für ältere und somit vertrautere Verfahren vor- 
liegt. 

Die Forschungsannahme 5 soll präzisiert und in folgende Teilannahmen 
überführt werden: 


e 5.1: Mit zunehmendem Alter der TesterInnen werden weniger Schwierig- 
keiten bei der Anwendung von Intelligenztests erwartet. 

e 5.2: Mit zunehmendem Alter der TesterInnen werden seltener aktuelle Tests 
angewendet. 


Forschungsannahme 6 
Es wird erwartet, dass sich das Geschlecht nicht auf Schwierigkeiten bei der An- 
wendung von Intelligenztests auswirkt. 

Es ist möglich, dass sich das Geschlecht des Testenden auf ein Kind aus- 
wirkt, z.B. könnte ein traumatisiertes geflüchtetes Kind gegenüber einem 
männlichen Tester befangen sein, da ein typischer Grund von Traumatisierun- 
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gen geflüchteter Kinder die Konfrontation mit gewalttätigen Männermilieus 
war. Für mit dem Geschlecht zusammenhängende Schwierigkeiten auf Seiten 
des Testenden liegen allerdings keine Hinweise vor. 


Forschungsannahme 7 

Es wird erwartet, dass eine geringere universitär vermittelte Auseinanderset- 
zung mit der Testdiagnostik mehr Schwierigkeiten bei der Anwendung von In- 
telligenztests in der Praxis nach sich zieht. 

Das Curriculum der Fachbereiche für Sonderpädagogik ist nicht einheitlich 
geregelt und kann auch davon abhängen, ob eine eher ablehnende Haltung ge- 
genüber der Statusdiagnostik bzw. eine zustimmende Haltung gegenüber der 
Förderdiagnostik vorliegt (siehe Eberwein, 1996; Kobi, 1977; Schlee, 2008). Ob- 
wohl ein Abgleich der Curricula der Fachbereiche mit den beschriebenen 
Schwierigkeiten bei der Anwendung von Intelligenztests mit dem Ziel einer 
Evaluation interessant wäre, würde dies den Rahmen der Studie überschreiten. 
Deshalb kann auch über die Qualität der universitären Ausbildung in den Bun- 
desländern keine Rückschlüsse gezogen werden, da der Arbeitsplatz nicht über- 
einstimmen muss mit dem Bundesland, in dem studiert wurde und nach dem 
Studienort nicht gefragt werden wird. Generell sollen Rückschlüsse zwischen 
universitärer Ausbildung und beschriebenen Schwierigkeiten untersucht werden. 

Die Forschungsannahme 7 soll präzisiert und in folgende Teilannahmen 
überführt werden: 


e 7.1: Das Ausmaß an Schwierigkeiten bei der Anwendung von Intelligenz- 
tests hängt vom Ausmaß der in der universitären Ausbildung besuchten 
Seminare zur Testdiagnostik ab. 

e 7.2: Das Ausmaß an Schwierigkeiten bei der Anwendung von Intelligenz- 
tests hängt vom Ausmaß der in der universitären Ausbildung referierten In- 
halte zur Testdiagnostik ab. 


Forschungsannahme 8 

Es wird angenommen, dass TeilnehmerInnen an einer außeruniversitären Fort- 
bildung zur Testdiagnostik weniger Schwierigkeiten bei der Anwendung von 
Testverfahren beschreiben. 

Da angenommen werden kann, dass die Teilnahme an einer Fortbildung 
zur Testdiagnostik mit einer besonderen Affinität zum Thema verbunden ist, 
aus der bereits eine Auseinandersetzung mit Intelligenztests resultieren könnte, 
sind Unterschiede bei den beschriebenen Schwierigkeiten im Umgang mit In- 
telligenztests zu erwarten, abhängig von der Teilnahme an der Fortbildung. Es 
wäre jedoch auch möglich, dass besonders verunsicherte TeilnehmerInnen eine 
Fortbildung zum Thema wahrnehmen, während versierte TesterInnen sich si- 
cher genug fühlen, auf Fortbildungen zu verzichten. 
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Forschungsannahme 9 
Es wird angenommen, dass bei Nutzung eines PC-Auswertungsprogramms zur 
Auswertung der Testergebnisse die Auswertungsobjektivität erhöht wird. 

Die in Studien beschriebenen Auswertungsfehler (Lipsius et al., 2008; Al- 
fonso et al., 1998) dürften bei einer computergestützten Auswertung größten- 
teils entfallen, da sowohl Rechen- und Auswertungsfehler als auch Fehler beim 
Abgleich mit Normtabellen weitgehend entfallen. Kubinger empfiehlt grund- 
sätzlich die Nutzung eines PC-Auswertungsprogramms (2009b, S. 46). 


Forschungsannahme 10 
Es wird angenommen, dass komplexere Tests fehleranfälliger sind. 

Besteht ein Test aus einer Vielzahl von Durchführungs- und Auswertungs- 
regeln, liegen mehr Möglichkeiten des Regelverstoßes vor. Daraus resultiert die 
Annahme, dass Tests mit vielen Regeln mehr Anwendungsfehler bzw. einfach 
durchzuführende Tests weniger Fehler nach sich ziehen. 
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4 Methoden 


Um die Schwierigkeiten bei der Anwendung von Intelligenztests durch Sonder- 
pädagogInnen zu erforschen, bietet sich eine direkte Befragung dieser mittels 
eines Fragebogens an. Schwerpunkt der Untersuchung wird also ein von Son- 
derpädagogInnen zu beantwortender Fragebogen sein. 

Nicht ausgeschlossen werden kann, dass eine Problematik bei der Beant- 
wortung eines Fragebogens gar nicht als Problematik gewertet wird. Diese Ge- 
fahr soll durch folgendes Beispiel belegt werden: 

Ein älteres Kind würde bei einigen Subtests mit altersentsprechenden An- 
fangsitems beginnen und die einfachen Aufgaben werden von vornherein über- 
sprungen (z.B. beginnt ein elfjähriges Kind in dem Subtest Bausteine zählen der 
KABC-II mit Item 7, die Items 1-6 werden ohne Durchführung als richtig be- 
wertet). Durch die Anwendung von Anfangsitems soll eine vermutete Unter- 
forderung vermieden werden. Es besteht jedoch die Sonderregelung, dass ver- 
meintlich ältere intelligenzgeminderte Kinder generell bei Item 1 beginnen 
können, auch wenn sie eigentlich mit einem späteren Anfangsitem auf Grund 
des biologischen Alters beginnen müssten. Hiermit soll eine Überforderung ko- 
gnitiv schwacher Kinder vermieden werden. Häufig wird bei der Anwendung 
dieser Sonderregelung jedoch übersehen, dass alle Items vor dem eigentlichen 
Anfangsitem mit einem Punkt bewertet werden müssen, auch wenn das Kind 
bei obigem Beispiel eine oder mehrere der Aufgaben 1-6 nicht gelöst hat, so- 
fern die eigentlichen Umkehraufgaben 7-9 richtig gelöst worden sind. Nur 
wenn dies nicht der Fall wäre, dürften die Aufgaben 1-6 nachträglich nicht 
mehr geändert werden. Die Anwendung dieser Sonderregelung (Beginn bei 
Item 1 bei vermeintlich kognitiv schwachen Kindern) ist eine verbreitete Praxis 
bei der Überprüfung auf den sonderpädagogischen Unterstützungsbedarf Geis- 
tige Entwicklung. 

Es würde also die Anwendung der Umkehrregel als nicht problematisch 
beim Ausfüllen eines Fragebogens beschrieben werden, sofern einem eine mög- 
liche falsche Anwendung gar nicht bewusst wäre. 

Um der Gefahr entgegenzuwirken, dass ProbandInnen Schwierigkeiten aus 
Unkenntnis nicht angeben, wird der Fragebogen durch eine Überprüfung von 
ausgewerteten Testformularen ergänzt. 

Bei der Überprüfung von Intelligenztestformularen werden ausgefüllte For- 
mulare auf Korrektheit geprüft. Um die Relevanz zu erhöhen, werden aus- 
schließlich Formulare überprüft, die im Verfahren zur Feststellung sonderpäd- 
agogischen Unterstützungsbedarfs angefertigt worden sind. 
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4.1 Fragebogenkonstruktion 


Ausgehend von den Fragestellungen sind die Fragen zu Gruppen zusammenge- 
fasst: 


a) Allgemein: (Alter; Geschlecht; allgemeine Testerfahrungen etc.), 

b) Anwendung: (spezielle Testerfahrungen; Vorlieben für Tests; Verfügbarkeit 
der Tests etc.), 

c) Ausbildung: (belegte Seminare während des Studiums; universitäre Inhalte 
bzgl. Testdurchführung etc.), 

d) Beliefs: (Einstellungen zu Intelligenztests, z.B. Mir fällt die Durchführung 
von Intelligenztests leicht), 

e) Abschluss: (z.B. Arbeitsschwerpunkte; repräsentative Daten). 


Einige Fragen aus dem Block Beliefs sind nicht Gegenstand dieser Forschungs- 
arbeit, sondern münden in eine separate Untersuchung zusammen mit Prof. 
A. Castello (Universität Flensburg, Abteilung für Sonderpädagogik). Die Inte- 
gration der Fragen dieser separaten Untersuchung hat praktische Gründe, da 
die Infrastruktur der Befragung genutzt werden konnte. Ergebnisse aus dieser 
Befragung werden in einer eigenen Veröffentlichung dargestellt. 

Ebenfalls münden nicht Fragen zur Testung von geflüchteten Kindern in 
diese Forschungsarbeit, die für eine weitere Untersuchung in den Fragebogen 
aus oben genannten Gründen integriert worden sind (siehe Joel, 2018). 

Der Fragebogen ist im Online-Material abgebildet”. Folgende Herange- 
hensweise wurde gewählt: Zunächst wurden in Form eines Brain-Storming lose 
Ideen für Fragen gesammelt, eher, um einen Anfang zu finden. Diese Fragen 
resultierten aus Beobachtungen, Vermutungen zu Schwierigkeiten und persön- 
lichen Erfahrungen und basierten zunächst nicht auf einem theoretischen Fun- 
dament und den daraus abgeleiteten Fragestellungen. Die Idee, aus Interesse 
und Neugier interessante Fragen stellen zu wollen, kann somit wissenschafts- 
theoretisch als naiv bezeichnet werden (Pilshofer, 2001). Erst nach Erstellung 
des theoretischen Teils dieser Arbeit und den daraus abgeleiteten Fragestellun- 
gen fand eine Operationalisierung statt. Angelehnt an ein Mind-Map zur The- 
matik boten sich die vorliegenden Fragen an, die wie oben beschrieben grup- 
piert worden sind. 

Bei einigen Fragen wurde ein dichotomes Antwortformat gewählt (Entschei- 
den Sie nach eigenem Ermessen, Intelligenztests durchzuführen: Ja/Nein), die 
meisten Fragen werden jedoch in Form von Ratingskalen mit fünf Antwort- 
kategorien gestellt. Dies hat zwar den Nachteil, dass die Antwortkategorien zu- 


59 Ohne die Fragen, die in andere Studien münden. 
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weilen als nicht gleichabständig verstanden werden, somit also eher von Or- 
dinal-, denn von Intervallskalierungen auszugehen ist (Bühner, 2011), sowie 
Verzerrungen auf Grund einer extremen Antworttendenz bzw. einer Tendenz 
zur Mitte auftreten könnten. Doch auch wenn Q(uestionaire)-Daten verzer- 
rungsanfällig sind (Beauducel & Leue, 2014), der entscheidende Vorteil ist ne- 
ben der Praktikabilität der hohe Differenzierungsgrad. 

Überwiegend werden Ratingskalen mit meist gebundenen Antwortformaten 
gewählt, deren Antwortkategorien durchweg verbalisiert sind zuungunsten von 
uni- bzw. bipolaren Antwortskalen. Die vorauszusetzende Fähigkeit für Rating- 
skalen, eigenes Verhalten angemessen reflektieren zu können, wird der Ziel- 
gruppe unterstellt. 

Der Fragebogen ist online auszufüllen. Eine Befragung über das Internet 
spart nicht nur Zeit und Kosten, es reduziert für die ProbandInnen ebenfalls 
den Aufwand. Nach dem Öffnen einer E-Mail mit der Bitte um Teilnahme 
kann auf einen Link gedrückt und der Fragebogen bereits ausgefüllt werden. 
Zwischenschritte wie das Öffnen eines Briefs, dem Ausfüllen eines Bogens so- 
wie der anschließenden Rücksendung mit dem Verpacken in ein Couvert, der 
Beschriftung des Couverts, der Suche nach einer Briefmarke und der Suche 
nach einem Briefkasten und der Weg dorthin entfallen‘. Weitere Vorteile sind 
die gute Erreichbarkeit der Zielgruppe, so könnten die angeschriebenen Sonder- 
pädagogInnen über eine E-Mail-Weiterleitung weitere potenzielle ProbandIn- 
nen informieren. Das unkomplizierte Bearbeiten der Fragebögen könnte zu einer 
hohen Rücklaufquote führen, da die investierten Mühen für die ProbandInnen 
gering sind. Gerade bei einer Befragung zu Schwierigkeiten könnte die Anony- 
mität zu einer höheren Akzeptanz führen, als wenn eine Befragung in Gegen- 
wart des Forschers stattfinden würde. Nachteile bei der Offenheit sind nicht zu 
befürchten. Tourangeau & Yan (2007) fanden bei Persönlichkeitsfragebögen 
diesbezüglich keinen Unterschied zwischen konventionellen Papier/Bleistift- 
und online Fragebögen. Weitere Vorteile sind die bereits digitalisierten Daten, 
so dass die Auswertung erleichtert ist und die Möglichkeit der adaptiven Fra- 
genweiterleitung (wenn-dann Bedingungen, z.B. wenn Frage 5 mit stimmt be- 
antwortet wurde, wird zu Frage 11 gesprungen). Bei einer online-Befragung 
stellt eine Befragung von ProbandInnen aus vielen Bundesländern keine Hürde 
dar. Weitere Vorteile sind die für eine objektive Beantwortung vorliegenden 
Rahmenbedingungen, denn die ProbandInnen füllen den Bogen bei freier Zeit- 
einteilung möglicherweise korrekter und auch emotionsloser aus, was im Sinne 
der Durchführungsobjektivität ist. Allerdings kann dies auch zum Nachteil ge- 
zählt werden, denn die Rahmenbedingungen können in keiner Weise vom Un- 


60 Auch bei einem Freiumschlag müsste zumindest der Weg zum Briefkasten vorgenommen 
werden. 
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tersucher beeinflusst werden, so dass nicht bekannt ist, wie die ProbandInnen 
den Bogen ausgefüllt haben (am Handy; betrunken; mit einem Kind auf dem 
Arm; sich nebenbei streitend; bei laufendem Fernseher etc.). 

Zu den weiteren Nachteilen von online-Befragungen zählt die geringere 
Einflussnahme auf den Pool der ProbandInnen. So könnten Personen teilneh- 
men, die gar nicht angeschrieben worden sind, z.B. KollegInnen der ange- 
schriebenen Sonderpädagoglnnen. Es ist jedoch unerheblich, ob angeschriebe- 
ne oder interessierte SonderpädagoglInnen teilnehmen“. Nicht ausgeschlossen 
werden kann zudem, dass ProbandInnen mehrfach teilnehmen. Eine absicht- 
lich falsche und somit die Untersuchung verfälschende Antwort kann nicht zu 
den Nachteilen aufgezählt werden, da dieses auch bei einer Face-to-face-Unter- 
suchung möglich wäre. 

Ein wichtiger Einwand gegen online Befragungen ist die Möglichkeit, dass 
nur bestimmte Personengruppen teilnehmen könnten, z.B. die dem Untersu- 
cher eher wohlgesonnenen Personen bzw. die über den Untersucher verärger- 
ten. Diese Selektion könnte dazu führen, dass nur bestimmte ProbandInnen 
teilnehmen. Ein bekanntes Beispiel dafür ist die Prognose für die Wahl zum 
US-Präsidenten 1936 durch eine Zufallsstichprobe an 50 000 BürgerInnen, die 
genauer war als die Prognose von 2,3 Millionen BürgerInnen, die allerdings 
freiwillig teilnahmen aus einem Pool von 10 Millionen angeschriebenen Bür- 
gerInnen (Bandilla, 1999, S. 18). 

Insgesamt stehen die vielen Vorteile einer online-Befragung in keinem Ver- 
hältnis zu den Nachteilen. 

Der Fragebogen orientiert sich an folgenden Prämissen: 


1. Der Datenschutz beinhaltet eine Zusicherung zu Beginn des Fragebogens 
über die Anonymität. Es wird versichert, dass keinerlei Rückschlüsse auf die 
ProbandInnen genommen werden. Der Server des Anbieters, über den der 
Fragebogen läuft (surveymonkey) befindet sich in den USA. Dies hat den 
Nachteil, dass dort weniger rigorose Datenschutzrichtlinien wie in Europa 
gelten. Deshalb wurde die Funktion deaktiviert, die die IP-Adressen der 
ProbandInnen aufzeichnet®. Ergänzend wurde versichert, dass nach Been- 
digung der Untersuchung lediglich Daten für die evtl. Prüfung der Disserta- 
tion archiviert werden, nach Beendigung der Prüfung diese mit einem Reiß- 
wolf vernichtet werden. 

2. Selbst von den ProbandInnen vorzunehmende Verzweigungen müssen nicht 
vorgenommen werden. Hat z.B. eine ProbandIn auf die Frage Ich habe noch 


61 Im Nachhinein war es sogar günstig, dass einige TeilnehmerInnen nicht an einer Fortbil- 
dung teilnahmen, da diese Personengruppe als Kontrollgruppe diente. 
62 Zumindest der Untersucher hat keine Möglichkeit, die IP-Adresse zu erkennen. 
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niemals einen Intelligenztest durchgeführt mit stimmt geantwortet, sind die 
folgenden Fragen zur konkreten Anwendung überflüssig. Hinweise wie bitte 
überspringen Sie die Fragen 10-15 gefährden das flüssige Antworten. Einen 
automatischen Sprung wurde bei der Programmierung des online-Frage- 
bogens berücksichtigt. Bei der Antwort stimmt auf obige Frage springt der 
Fragebogen an eine passende Stelle, überflüssige Fragen zur konkreten 
Durchführung unterbleiben. 

3. Zur Vermeidung von Sozialer Erwünschtheit bzw. Akquieszenz“, aber auch 
von Self-enhancement‘' wurde auf eine Lügenskala verzichtet. Es wäre damit 
zu rechnen, dass entsprechende Fragen die Compliance verringern könnten, 
da SonderpädagoglInnen dies rasch erkennen würden. Der angenommene 
negative Effekt würde den möglichen positiven nicht relativieren. Stattdes- 
sen wurde das Phänomen der Sozialen Erwünschtheit offen in der Einleitung 
angesprochen. Zur Vermeidung der sozialen Erwünschtheit wird auf wer- 
tende Fragestellungen verzichtet bzw. werden die Fragen neutral formuliert, 
um sozial erwünschte Antworten nicht herauszufordern (Pilshofer, 2001). 
Es ist anzunehmen, dass viele ProbandInnen den Autoren aus Fortbildun- 
gen kennen und deshalb evtl. wohlwollend gegenüberstehen“ und deshalb 
entsprechend bewusst oder unbewusst sozial erwünscht agieren könnten. Es 
ist jedoch kaum möglich, aus den Fragestellungen die Einstellungen des Au- 
toren herauszulesen. Dementsprechend wüssten die ProbandInnen gar 
nicht, wie sozial erwünscht geantwortet werden könnte. Zudem wird er- 
fragt, ob die ProbandInnen an einer Fortbildung des Autoren teilgenommen 
haben. Die Auswertung wird im Gruppenvergleich (ehemalige Teilnehme- 
rInnen vs. den Autoren nicht kennend) mögliche Unterschiede ermitteln. 

4. Auf unterschiedlich gepolte Fragen wird ebenfalls verzichtet. Gelegentlich 
negativ gepolte Fragen könnten zwar der Nein-sage- bzw. Ja-sage-Tendenz 
entgegenwirken, würde aber die Beantwortung der Fragen weniger flüssig 
gestalten. 

5. Ebenfalls unberücksichtigt bleibt zugunsten der Flüssigkeit des Fragebogens 
die Frage der Skalenorientierung (fängt man links mit der höchsten oder 
niedrigsten Ausprägung an; mit der negativsten oder positivsten Antwort- 
kategorie etc.). Generell besteht eine leichte Tendenz, die Antwortkatego- 
rien links zu bevorzugen (Tourangeau, Rips & Rasinski, 2000), neuere Stu- 
dien stellen diesen general primacy effect gar im Zusammenhang mit der 
Skalenorientierung, doch ist die Forschungslage nicht einheitlich (siehe 
Toepoel, 2008; Hofmans et al., 2007; Krebs & Hoffmeyer-Zlotnick, 2010). 


63 Zustimmungstendenz unabhängig vom Inhalt. 
64 Tendenz zur Selbsttäuschung bzw. zur selbsttäuschenden Überhöhung. 
65 Bzw. ablehnend. 
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Berücksichtigt wurde jedoch die Studie von Krosnick & Alwin (1987), die 
stärkere Reihenfolge-Effekte bei einer vertikalen Darstellung der Ra- 
tingskalen feststellte. Aus diesem Grund sind alle Ratingskalen horizontal 
angeordnet. 

. Die Vermeidung einer Tendenz zur Mitte durch Rating-Skalen mit einer 
geraden Anzahl an Antwortmöglichkeiten wurde vernachlässigt, um eine 
Richtungsentscheidung nicht zu erzwingen, sofern ProbandInnen eine mitt- 
lere Antwort tatsächlich als gültig empfinden. Es wurden fünfstufige Rating- 
skalen verwendet. Menold und Bogner (2015) empfehlen generell fünf- bis 
siebenstufige Antwortkategorien, da mehr Kategorien die Eindeutigkeit ver- 
ringern und weniger schlecht differenzieren. Krosnick und Fabrigar (1997; 
siehe auch Krosnick & Presser, 2010) postulieren eine verbesserte Reliabili- 
tät und Validität und einen guten Differenzierungsgrad bei fünf bis sieben 
Kategorien; O’Muircheartaigh, Krosnick & Helic (1999) stellten zudem eine 
Zunahme von Reliabilität und Validität bei der Verwendung einer Mittel- 
kategorie fest. Es wird in Kauf genommen, dass eine ungerade Ratingskala 
die Tendenz zur Mitte verstärken könnte (Saris & Gallhofer, 2007). 

. In Anlehnung an Rohrmann (1978) werden für die Bezeichnung der fünf 
Stufen der Rating-Skalen Worte verwendet, die als gleichabständig empfun- 
den werden (z.B. völlig falsch - ziemlich falsch - unentschieden - ziemlich 
richtig - völlig richtig). Dies hat auch methodische Gründe: würde bei der 
Wortwahl nicht sorgfältig vorgegangen werden, bestünde die Gefahr, dass 
kein Mittelwert wie bei einer Intervallskala ermittelt werden kann, denn bei 
einem überwiegend als ungleich empfundenen Abstand zwischen den fünf 
Antwortmöglichkeiten verbietet sich die Ermittlung eines Mittelwertes. Die 
Annahme, dass die Stufen der Skalen gleichabständig sind, ermöglicht zu- 
dem die Einordnung der Daten als metrisch, was Vorteile bei der inferenz- 
statistischen Auswertung nach sich zieht. Jedoch könnte kritisch hinterfragt 
werden, ob die 1978 von Rohrmann mit Hilfe einer nicht repräsentativen 
Stichprobe vorgeschlagenen Empfehlungen auf Grund eines möglichen 
Wandels im Sprach- und Wortgebrauch heutzutage noch Gültigkeit haben. 

. CFT1 und CFTI-R sind zusammengefasst, da nicht sicher davon ausgegan- 
gen werden kann, dass den ProbandInnen bewusst ist, ob sich Antworten 
auf den CFT1 oder den sehr ähnlichen CFT1-R beziehen. Aus diesem 
Grund und auf Grund der tatsächlich hohen Ähnlichkeit wurde zwischen 
CFT1 und CFTI-R nicht unterschieden, obwohl es sich strenggenommen 
um verschiedene Verfahren handelt. 

. Bei der Frage, ob jede der fünf Kategorien eine Beschriftung erhält, oder ob 
lediglich eine Skalenpolarität Verwendung findet, scheinen uni- (z.B. nicht 
zufrieden - sehr zufrieden) bzw. bipolare (z.B. stimme zu - lehne ab) Rating- 
skalen verlockend. So könnte eine Frage lauten: die Testräume finde ich oft 
(...) und am linken Rand der Ratingskala steht ungenügend, am rechten ge- 
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10. 


11. 


12. 


eignet, die mittleren drei Kategorien bleiben unbeschriftet (bipolare Rating- 
skala). Die Frage ist klar formuliert, der ProbandIn ist ebenso schnell klar, 
worum es geht. Menold und Bogner (2015) sprechen keine Empfehlungen 
bezüglich einer Skalenpolarität aus, da die Effekte wenig untersucht sind, 
schließen allerdings aus einer Metaanalyse zu Forschungsarbeiten zu Ra- 
tingskalen den Schluss, dass „die Ergebnisse der bisherigen Forschung (...) 
eher für die Verwendung vollverbalisierter Ratingskalen (...)“ spricht (ebd., 
S. 3). Diese Erkenntnisse nicht ignorierend wurde der Fragebogen, der zu- 
nächst verschiedene Formen von Ratingskalen vorsah, überarbeitet und die 
Ratingskalen so gestaltet, dass alle Antwortkategorien verbalisiert sind. Die- 
ses Vorgehen vermeidet bei bipolaren Ratingskalen mit einer Mittelkatego- 
rie (die ja durchgehend vorhanden ist) Verwirrung bei einer möglichen Be- 
antwortung der mittleren Kategorie. In diesem Zusammenhang merken 
Menold und Bogner an (2015), dass nach Kaplan (1972) sowie Dubois und 
Burns (1975) entweder Indifferenz (weder noch) oder Ambivalenz (teils- 
teils) zum Ausdruck kommen könnte, dies aber in der Auswertung nicht 
nachvollziehbar wäre, was genau eine mittlere Antwort aus Sicht der Pro- 
bandIn verdeutlichen soll. 

Ebenfalls um die Compliance zu erhöhen, wurden die Fragen einfach gestal- 
tet und der Umfang des Fragebogens so begrenzt, dass er in maximal 20 Mi- 
nuten zu beantworten ist. Die Formulierung der Fragen orientierte sich daran, 
ob sie präzise, ausbalanciert und allgemein verständlich (Menold & Bogner, 
2015) sind. Ein Fortschrittsbalken gibt auf jeder Seite des Onlineformulars 
in Prozent an, wie viele Fragen bereits beantwortet worden sind. Diese Hin- 
weise sollen die Abbruchquote verringern. Dennoch soll der Umfang des 
Fragebogens zugunsten der erhöhten Mitwirkungsbereitschaft nicht zu kurz 
gestaltet sein. Dieses von Krosnick und Alwin (1987) als Satisficing bezeich- 
nete Phänomen würde die Aussage- und Auswertungskraft reduzieren. 

Auf eine Motivation in Form eines inzwischen üblichen Preisausschreibens 
bei einer Teilnahme wurde verzichtet. Zum einen, da genügend Kontakte zu 
Schulen und SonderpädagogInnen vorhanden sind und die Annahme be- 
gründet ist, aus diesem Pool von Kontakten ausreichend ProbandInnen zu 
erreichen; zum anderen, da ein Preisausschreiben mit dem Hinterlegen ei- 
ner Adresse verbunden wäre. Dies spräche gegen die Wahrung der Anony- 
mität. 

Die in der Regel geschlossenen Fragen werden weitgehend durch eine offene 
Frage für Anmerkungen ergänzt. Damit soll vermieden werden, dass Ant- 
wortideen außerhalb des Korsetts der geschlossenen Fragen präsentiert wer- 
den können.“ 
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Es fließen allerdings keine offenen Antworten in die Auswertung mit ein. 
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13. Die Instruktion erklärt offen die Fragestellung (Anwendung von Intelligenz- 
testsin der Sonderpädagogik) und die Motivation (Dissertation, Verbesserung 
der Diagnostik); jedoch werden negativ konnotierte Worte wie Fehler oder 
Schwierigkeiten vermieden. Neben der kurzen Erläuterung der Fragestel- 
lung, Hinweisen zur Anleitung und zum Datenschutz wird um die Vermei- 
dung der Sozialen Erwünschtheit gebeten und für die Teilnahme gedankt. 

14. Kurze Fragen zum Geschlecht und Beruf werden am Anfang gestellt, sozio- 
demografische Daten jedoch am Ende. Diese könnten am Anfang gestellt ir- 
ritierend wirken, da sie als die Zusicherung der Anonymität unterlaufend 
empfunden werden könnten (Pilshofer, 2001). 

15. Der Fragebogen ist auf der Plattform surveymonkeys abrufbar. Als Tag wur- 
de lediglich das Wort „Intelligenztests“ gewählt. Damit kann ausgeschlossen 
werden, dass zufällig eine Suchmaschine einen Treffer anzeigt, z.B. wenn 
eine Suchmaschine eine Anfrage für „Intelligenztests“ erhält. Es gibt so viele 
Treffer auf diese Anfrage, dass ein Hinweis auf die Befragung ausgeschlos- 
sen werden kann. Selbst bei der Eingabe von „Surveymonkey“ „+“ „Intelli- 
genztests“ gab es am 18.1.2017 keinen Treffer”, obwohl der Fragebogen zur 
Probe bereits seit Monaten online war. Diese kostenpflichtige Plattform 
stellt ein professionelles Design zur Verfügung. Damit sollte verhindert wer- 
den, dass ein zusammengebastelt wirkender Fragebogen die Compliance 
verringert. Allerdings wurden auf grafische Elemente und technische Spiele- 
reien durchgehend verzichtet. So fanden z.B. Tourangeau, Couper & Con- 
rad (2004), dass Stilmittel wie farbliche Übergänge innerhalb der Rating- 
skalen zur Vermeidung von Extremantworten führten. 


In einem Pretest wurden 41 Personen gebeten, den Fragebogen auszufüllen. Ein 
Feedback sollte mögliche Mängel in der Lesbarkeit, Formulierung der Fragen, 
nicht erkannte (Rechtschreib-)Fehler, unlogische Zusammenhänge etc. erken- 
nen. Um eine sonderpädagogische Betriebsblindheit zu verhindern, wurden 
auch Personen befragt, die nicht in (sonder-)pädagogischen Zusammenhängen 
arbeiten bzw. mit der Anwendung von Intelligenztests nichts zu tun haben. 

Alle Sprungfunktionen des online-Fragebogens wurden deaktiviert, damit 
sichergestellt war, dass von den ProbandInnen alle Fragen bewertet werden 
konnten. 

In Anlehnung an Pilshofer (2001) wurde im Pretest-Verfahren um die Be- 
antwortung folgender Fragen gebeten: 


1. Wie lange hat die Bearbeitung gedauert? 
2. Wird das Layout als übersichtlich empfunden? 


67 Geprüft wurden die ersten Ergebnisseiten. 
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Wirkt der Fragebogen insgesamt zu lang oder in bestimmten Bereichen er- 
müdend? 

Ist bei den offenen Fragen genug Platz vorgesehen zum Beantworten? 

Fühlt man sich bei einzelnen Fragen in eine bestimmte Richtung gedrängt? 
Sind alle Fragen verständlich? 

Sind alle Antworten in den vorgesehenen Antwortkategorien eindeutig un- 
terzubringen oder fehlt z.B. eine Antwortmöglichkeit - oder kommen Zwei- 
fel auf bei der Zuordnung? 

Sind Rechtschreib- oder Grammatikfehler vorhanden? 

Sonstige Anmerkungen. 


Das Pretest-Verfahren dauerte vom 19.1. bis zum 7.2.2017. Es wurden 24 Frage- 
bögen ausgefüllt. Insgesamt gab es kaum Anmerkungen zur Konstruktion des 
Fragebogens. Einige Verbesserungsvorschläge wurden gemacht, diese münde- 
ten in folgende Modifikationen des Fragebogens: 


Auf die Frage, in welchen Räumen die Tests durchgeführt werden (z.B. 
Klassenraum, spezieller Testraum), wurde die Antwortmöglichkeit sonstige 
Räume eingefügt mit einem Textfeld zur Beschreibung sonstiger Testräume. 
Damit sollte eine Antwortmöglichkeit über die vorgegebenen Vorschläge 
hinaus ermöglicht werden. 

Auf die Frage, welche Tests bereits durchgeführt worden sind (z.B. KABC- 
II, IDS usw.) wurde die Rubrik der Test ist mir unbekannt hinzugefügt. 

Auf die Frage, welche Tests als aussagekräftig empfunden werden (z.B. 
KABC-IL IDS usw.) wurde die Rubrik keine Angabe/Test unbekannt hinzu- 
gefügt, um Verfälschungen durch Fehlantworten auf Grund mangelnder 
Antwortkategorien zu vermeiden. 

Auf die Frage, welche Tests zur Verfügung stehen (sich z.B. im Testschrank 
befinden), wurde die Rubrik ich weiß nicht, welche Tests vorhanden sind 
hinzugefügt. 

Auf die Frage nach Schwierigkeiten im Umgang mit Durchführungsregeln 
(z.B. Umkehrregeln, Abbruchregeln etc.) wurde die Rubrik weiß nicht hin- 
zugefügt. 

Auf die Frage, ob die Erklärungen in den Handbüchern als verständlich 
empfunden werden (z.B. für die KABC-II usw.) wurde die Rubrik weiß 
nicht hinzugefügt. 

Die Frage Testergebnisse aus Intelligenztests beeinflussen Eltern in ihren Pla- 
nungen und Maßnahmen wurde hinzugefügt. 

In einer Frage zur universitären Ausbildung wurde Konstrukte referiert der 
besseren Lesbarkeit halber in Inhalte vorgestellt geändert. 
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4.2 _Vorannahmen für die Auswertung der Fragebögen 


Die Auswertung der Fragebögen basiert bei einigen Hypothesenprüfungen auf 
der Annahme, dass die Verfahren in ein- bzw. mehrdimensionale Verfahren 
unterteilt werden können, sowie in der Annahme, dass die Verfahren unter- 
schiedlich komplex sind. Diese Unterteilungen sollen begründet werden. 


4.2.1 Ein- versus mehrdimensionale Intelligenztests 


Die Annahme, mehrdimensionale Tests sind aussagekräftiger als eindimensio- 
nale, setzt eine Zuordnung in ein- bzw. mehrdimensionale Verfahren voraus. 
Alle hier primär untersuchten Intelligenztests basieren auf hierarchischen In- 
telligenzmodellen. Entsprechend dem Drei-Schichten-Modell der Intelligenz 
(Three-Stratum-Theory; Carroll, 1993), aus dem u.a. das derzeit bedeutsame 
CHC-Modell der Intelligenz resultiert (siehe Abbildung 3), können Fähigkeiten 
auf drei Ebenen dargestellt werden (siehe Kapitel 2.3.3.5: Das CHC-Modell als 
integrierendes Intelligenzmodell, Abbildung 1). Eindimensionale Tests prüfen 
auf der untersten Ebene (Stratum I) mit Hilfe von Subtests Fähigkeiten, die di- 
rekt auf der obersten Ebene in den Generalfaktor der Intelligenz münden (siehe 
Abbildung 4). Eigentlich wird bei eindimensionalen Tests auf der Stratum-II- 
Ebene einer von mehreren broad abilitys überprüft (in der Regel die fluide In- 
telligenz) und diese mit dem Generalfaktor gleichgesetzt. Mehrdimensionale 
Verfahren hingegen bieten auf der mittleren Ebene (Stratum II) normierte Er- 
gebnisse an, oft Indices genannt. Diese sind hilfreich zur Erkennung von indivi- 
duellen Stärken und Schwächen der Kinder, scheinen also geeignet für die Ab- 
leitung (sonder-)pädagogischer Maßnahmen. 


Abbildung 3. Drei-Schichten-Modell der Intelligenz (angelehnt an Carroll, 1993. 
g = Generalfaktor). Str. = Stratum. 


g Str.-Ill 
Breite Fähigkeiten Str.-Il 
enge Fähigkeiten Stratum-I 
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Abbildung 4. Übertragung des Drei-Schichten-Modells auf mehrdimensionale Intelli- 
genztests (links) bzw. eindimensionale Intelligenztests (rechts), (angelehnt an Carroll, 
1993). gf = fluide Intelligenz. gsm = Kurzzeitgedächtnis. gv = visuelle Intelligenz. 


£ g 
gf, gsm, gv usw. fehlt 
Subtests Subtests 


Zusammengefasst kann festgestellt werden, dass eindimensionale Tests vor al- 
lem einen Vergleich mit altersgleichen Personen ermöglichen, während darüber 
hinaus mehrdimensionale Tests auch intraindividuelle Analysen anbieten. Kri- 
terium für die Einordnung zu einem mehr- bzw. eindimensionalen Test ist die 
Auswertungsmöglichkeit auf der Stratum-II-Ebene. Tabelle 10 verdeutlicht die 
sich daraus ergebende Zuordnung: 


Tabelle 10. Zuordnung der Tests in eindimensionale- bzw. mehrdimensionale Intelli- 
genztests. 


Eindimensionale Verfahren Mehrdimensionale Verfahren 
CFT1/CFT1-R K-ABC 
CFT20-R KABC-II 
SON-R 6-40 WISC-IV 
WPPSI-III 
SON-R 212-7 


Anmerkung. CFT20-R: ohne Zahlenfolgentest und Wortschatztest, die in der Praxis häufig nicht durchge- 
führt werden. 


Einige der primär untersuchten Testverfahren sind von dieser Zuordnung aus- 
genommen, was im Folgenden begründet werden soll: 

Für die IDS werden laut Handbuch in dem die Intelligenz messenden Part 
des Tests in „aufsteigender Komplexität“ (Grob, Meyer & Hagmann-von Arx, 
2009, S. 17) Wahrnehmung, Aufmerksamkeit, Gedächtnis und Denken erfasst. 
Obwohl diese als Indices im weiteren Sinne bezeichnet werden können, ist eine 
Auswertung dieser vier Bereiche mit Hilfe einer Normtabelle nicht möglich, so 
dass lediglich ein Gesamtwert ermittelt werden kann. 

Gleiches gilt für den SON-R 5%-17 und die WNV. Weder für die vier über- 
geordneten Bereiche des SON-R 5%-17 (Abstraktes Denken, Konkretes Denken, 
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Räumliches Denken, Perzeption; Snijders, Tellegen & Laros, 1997) noch für die 
ausdrücklich Mehrdimensionalität postulierende WNV (z.B. Visuell räumliche 
oder feinmotorische Fähigkeiten; Petermann, 2014, S. 10) werden über die Aus- 
wertung eines Gesamtwerts und der Subtests Auswertungsmöglichkeiten auf 
Stratum-II-Ebene ermöglicht. 

Wird entsprechend dem CHC-Modell ein Indice bzw. eine breite Fähigkeit 
postuliert, sollte diese nach Renner & Mickley (2015b) aus zumindest 2 sich un- 
terscheidenden Subtests gebildet werden, um von einer gewissen Aussagekraft 
sprechen zu können. Auch dieses Kriterium ist bei keiner der drei zuletzt be- 
schriebenen Tests erfüllt, da die Dimensionen teils nur auf einem Subtest basie- 
ren. Da die IDS, der WNV und der SON-R 5%-17 bezüglich der Dimensiona- 
lität weder eindeutig der einen noch der anderen Gruppe zuzuordnen sind, 
werden sie bei der Hypothesenprüfung nicht berücksichtigt, ob mehrdimensio- 
nale Tests als aussagekräftiger eingeschätzt werden. 


4.2.2 Komplexe vs. weniger komplexe Intelligenztests 


Um zu klären, ob komplexere Intelligenztests tatsächlich seltener angewendet 
werden, müssen die Verfahren nach ihrer Komplexität geordnet werden. Eine 
Vielzahl von Faktoren könnte die Komplexität definieren, z.B. die Interpreta- 
tionsmöglichkeiten, die ein Test bietet, die Vielzahl von Signifikanzprüfungen 
auf der Ebene der Indices oder die Analysemöglichkeiten unter Einbezug optio- 
naler Ergänzungstests. 

Im Sinne dieser Arbeit wird die Komplexität eines Tests sehr reduziert defi- 
niert. Da es vor allem um Bedingungen geht, die die Durchführungsobjektivität 
gefährden könnten, wird die Komplexität an der Anzahl der Anwendungsregeln 
gemessen, denn es wird angenommen, dass auf Grund der Vielzahl an Regeln 
komplexere Tests gemieden werden, auch wenn sie zur Verfügung stünden. 

Zur Bestimmung der Komplexität im Sinne dieser Arbeit wird die Anzahl 
aller Regeln und Hinweise überschlagen, die in der Eins-zu-Eins Testsituation 
zu beachten sind. Dies bezieht alle Subtests einer Testbatterie mit ein, unabhän- 
gig davon, ob es sich für bestimmte Altersgruppen um optionale oder Kerntests 
handelt. Da die Auswahl der Subtests für ein zu testendes Kind von einer Viel- 
zahl von Faktoren abhängt (z.B. Alter, Fragestellung, Intelligenzmodell), wird 
eine Gewichtung nach Bedeutung der Subtests nicht vorgenommen. 

Grundlage für die Zählung der Durchführungsregeln und Hinweise sind die 
Manuale“ und basiert auf folgender Zählweise: 


68 ausgenommen der SON-R 5 %-17, da für diesen Test kein Manual zur Verfügung stand. 
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Die 


Gezählt wurden Instruktions-, Durchführungsregeln und Hinweise. Bewer- 
tungsregeln wurden mitgezählt, wenn sie in der Testsituation beachtet wer- 
den müssen (und nicht z.B. in einer anschließenden Situation ohne Kind), 
da sie dann Bestandteil der Testsituation sind. Dies ist z.B. möglich, wenn 
eine Bewertung sofort vorgenommen werden muss, um zu ermessen, ob 
eine Abbruch- oder Umkehrregel greift. 

Variieren allgemeine Regeln wie die Abbruch- oder die Umkehrregeln von 
Subtest zu Subtest, wurden sie jeweils addiert; sind allgemeine Regeln in- 
nerhalb eines Tests jeweils gleich für jeden Subtest anwendbar, wurden sie 
nur einmal gezählt. 

Spezifische Regeln, die sich von Subtest zu Subtest wiederholen, wurden 
nicht jedes Mal erneut gezählt, auch nicht, wenn der Wortlaut leicht vari- 
iert. So wurde z.B. davon ausgegangen, dass die in der WNV vielfach be- 
schriebene Regel lassen Sie dem Kind Zeit, die Bilder zu betrachten (bis zu ei- 
ner Minute) (Wechsler & Naglieri, 2006) von den TesterInnen nach spätes- 
tens zwei/drei Subtests internalisiert worden ist. 

Nicht mitgezählt wurden allgemeine Regeln zur Gestaltung der Testsitua- 
tion (z.B. Testraum, Beleuchtung) oder Hinweise zum Beziehungsaufbau, 
der Bestimmung der Untertests etc. 


Anzahl an Regeln und Hinweisen für die Testsituation wird nicht als exakt 


ermittelt postuliert. Dies wird auch damit begründet, dass die Regeln in den 
Manualen nicht immer kohärent und eindeutig erläutert werden und nicht im- 
mer eindeutig ist, ob ein Wortlaut ein Hinweis oder eine Erläuterung darstellt. 
Deshalb wird die Anzahl der Regeln als Überschlag bewertet und ein ca. hinzu- 
gefügt, dient also einer Orientierung zur Einordung, siehe auch Abbildung 5 
und Tabelle 11. 


Gezählte Regeln: 

K-ABC: ca. 168 (16 Subtests) 
KABC-I: ca. 580 (18 Subtests) 
CFTI/CFT1-R®: ca. 38 (6 Subtests) 
CFT 20-R’”°: ca. 58 (10 Subtests) 
CFT 20-R”': ca. 47 (8 Subtests) 
WISC-IV: ca. 406 (15 Subtests) 
WPPSI-II: ca. 322 (14 Subtests) 
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Grundlage: CFTI-R. 

Inkl. Zahlenfolgentest und Wortschatztest (kristalline Intelligenz), es wird allerdings 
angenommen, dass deren Anwendung in der Praxis selten ist und eher der (fluide) Teil 
durchgeführt wird, für den die Tests der CFT-Reihe in der Regel genutzt werden. 

Ohne Zahlenfolgentest und Wortschatztest. 


WNV: ca. 172 (6 Subtests) 
SON-R 6-40: ca. 92 (4 Subtests) 
IDS”: ca. 87 (7 Subtests) 


Abbildung 5. Anzahl der Regeln und Hinweise der Intelligenztests. 
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Aus diesem Ergebnis resultiert folgende Kategorisierung: 


Tabelle 11. Zuordnung der Tests nach Komplexität. 


wenig komplex leicht komplex komplex sehr komplex außerordentlich 

komplex 
CFT1/CFT1-R SON-R 6-40 K-ABC WISC-IV KABC-II 
CFT2O-R IDS WNV WPPSI-II 


4.2.3 Konstruktion eines Schwierigkeiten-Index 


Für die Hypothesenprüfung ist die Ableitung eines Schwierigkeiten-Index sinn- 
voll. In diesem Index sollen Schwierigkeiten bei der Durchführung eines Intel- 
ligenztests zusammengefasst mit einem Kennwert erfasst werden, z.B. Umkehr- 


72 Grundlage: Kognitive Entwicklung (Intelligenz), nicht weitere Entwicklungsbereiche wie 
Motorik, Sprache etc. 
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regeln bereiten mir Schwierigkeiten” (Q15/1”*) oder ich wurde von einem Telefon- 
anruf während der Testsituation gestört (Q18/1). Mit Hilfe dieses Kennwerts 
könnte z.B. geprüft werden, ob ältere oder jüngere oder nordrhein-westfälische 
oder niedersächsische SonderpädagogInnen signifikant mehr oder weniger 
Schwierigkeiten benennen bei der Anwendung von Intelligenztests. Vor der 
Hypothesenprüfung soll an dieser Stelle die für die Prüfungen notwendige Ska- 
lenkonstruktion beschrieben werden. Inhaltliche Überlegungen führten zu einer 
Vorauswahl von 20 Items, die für eine erste Sichtung für die Bildung des Index 
geeignet schienen. Zur Prüfung wurde Cronbachs Alpha (Cronbach, 1951) ge- 
wählt. Alternativ böte sich auch eine Faktorenanalyse an, die auf Grund der 
verschiedenen Item-Merkmale (z.B. dichotome vs. nominal skalierte Merkma- 
le) verworfen wurde. Die Vorauswahl beschränkt sich auf diejenigen Items mit 
einer fünfstufigen Likert-Skala. So wurden die Vergleichbarkeit und Konsistenz 
der Daten als geeigneter eingeschätzt. Grundlage der Indexbildung waren die 
vorliegenden Daten nach Abschluss der Erhebung, genauere Angaben zur Er- 
hebung werden an späterer Stelle erläutert. 

Das Verfahren Cronbachs Alpha (auch Alpha) ist vieldiskutiert, im Kern 
häufig bezüglich der empfohlenen Höhe der Werte, die als akzeptabel genannt 
werden, aber auch bezüglich der Manipulationsmöglichkeiten zur Erreichung 
(scheinbar) akzeptabler Werte. Bortz und Döring (2006) beschreiben z.B. die 
Möglichkeit über die Erhöhung der Anzahl von Items immer höhere Koeffi- 
zienten nach Cronbach zu erzielen, so dass ab einer gewissen Anzahl der Items 
zwangsläufig ein akzeptabler Wert erreicht wird, obwohl die Items wenig im 
Zusammenhang stehen. 

Doch dies ist das Ziel: mit Hilfe von Cronbachs Alpha die interne Konsis- 
tenz mehrerer Variablen zu prüfen und in einem Index zu integrieren und so- 
mit den Zusammenhang zu belegen. 

Die für das Schwierigkeiten-Index ausgewählten Items Q13, Q14, Q15, Q17, 
Q18 und teils Q28 werden aus Gründen der Nachvollziehbarkeit aufgeführt: 


1. Kommt es vor, dass einige Ihrer Intelligenztests nicht zur Verfügung stehen 
(z. B. ausgeliehen sind etc.) (Q13/1)? 

2. Kommt es vor, dass die Testmaterialien unvollständig sind (z.B. fehlende 
Puzzleteile) (Q13/2)? 

3. Kommt es vor, dass Formulare/Arbeitsbögen fehlen (Q13/3)? 
Welche dieser Veränderungen haben Sie schon einmal vorgenommen: Durch- 
führungszeiten geändert (z.B. nach Ablauf der regulären Durchführungszeit/ 
Item einen Punkt gegeben bei richtiger Antwort) (Q14/1)? 


73 Sinngemäß umformuliert. 
74 Angaben wie „Q15/1“ beziehen sich auf die Frage des Fragebogens. Q15/1 = Frage 15, 
erste Unterfrage. 
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11. 


18. 


19. 


20. 


Im 


Welche dieser Veränderungen haben Sie schon einmal vorgenommen: Durch- 
führungszeit ganz weggelassen (Q14/2)? 

Welche dieser Veränderungen haben Sie schon einmal vorgenommen: Rück- 
meldungen gegeben, wenn diese nicht vorgesehen waren (z.B. richtig oder hast 
du richtig gelöst) (Q14/3)? 


. Folgende Durchführungsregeln bereiten mir Schwierigkeiten: Umkehrregeln 


(Q15/1). 


. Folgende Durchführungsregeln bereiten mir Schwierigkeiten: Abbruchregeln 


Q15/2). 


. Folgende Durchführungsregeln bereiten mir Schwierigkeiten: Ausrechnen des 


Testalters (Q15/3). 


. Sind die Testräume geeignet? (Q17)? 


Wurden Sie schon mal während einer Testung gestört: durch einen Telefon- 
anruf (Q18/1)? 


. Wurden Sie schon mal während einer Testung gestört durch eine Person, die 


an die Tür geklopft hat (Q18/2)? 


. Wurden Sie schon mal während einer Testung gestört durch eine Person, die 


den Raum betreten hat (Q18/3)? 


. Wurden Sie schon mal während einer Testung gestört durch Geräusche (z.B. 


spielende Kinder, Verkehrslärm) (Q18/4)? 


. Wurden Sie schon mal während einer Testung gestört durch Lautsprecher- 


durchsagen (Q18/5)? 


. Bitte bewerten Sie folgende Aussagen: Im Rahmen meiner Arbeit steht mir zu 


wenig Vorbereitungszeit für das Lernen eines normierten Tests zur Verfügung 


(Q28/1). 


. Bitte bewerten Sie folgende Aussagen: Heutzutage habe ich weniger Zeit für 


die Anwendung eines Intelligenztests (Q28/2). 

Bitte bewerten Sie folgende Aussagen: Heutzutage habe ich weniger Zeit für 
die Durchführung eines sonderpädagogischen Gutachtens (Q28/3). 

Bitte bewerten Sie folgende Aussagen: Steht mir nicht genügend Vorberei- 
tungszeit zur Verfügung für einen Test, bereite ich mich in der Freizeit vor 
(Q28/4). 

Bitte bewerten Sie folgende Aussagen: Mir fällt die Durchführung von Intelli- 
genztests leicht (Q28/5). 


ersten Schritt ist die Polung (negativ/positiv) angepasst (Q17, Q28/5), im 


zweiten Schritt sind die Fragengruppen (Q13, Q14, Q15: jeweils 3 Items; Q18, 
Q19: jeweils 5 Items) nach Cronbachs Alpha geprüft worden”. 


75 


Q17 besteht nur aus einem Item, deshalb wäre eine Gruppenprüfung sinnlos. 
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In einer ersten Zwischenbilanz wird die Fragengruppe Q14 als kritisch be- 
trachtet (siehe Tabelle 12). Auch inhaltlich ist der Einbezug der drei Items zu 
Q14 nicht zwingend. Unter Entfernung weiterer kritischer Items (Q15/3, 
Q18/5, Q28/5) konnte der höchste Alpha Koeffizient von .773, basierend auf 
14 Items ermittelt werden (siehe Tabelle 13). 


Tabelle 12. Konstruktion Schwierigkeiten-Index: Prüfung nach Cronbachs Alpha für 
Fragengruppen. 


Fragengruppe Anzahl Items Alpha Cronbachs Alpha, wenn ein Item weggelassen 
013 3 732 ‚725 
014 3 573 ‚590 
015 3 .669 .813 
018 5 .687 .7ı1 
028 5 ‚710 .748 


Anmerkungen. Q13: Schwierigkeiten durch fehlende Materialien. Q14: unerlaubte Veränderungen. Q15: 
Schwierigkeiten mit Regeln. Q18: Störungen in Testsituation. Q28: Einstellungen zur Anwendung von 
Tests. 


Tabelle 13. Konstruktion Schwierigkeiten-Index: Prüfung nach Cronbachs Alpha nach 
einer ersten Bereinigung. 


Alpha: .773 Skalenmittelwert, Skalenvarianz, Korrigierte Item- Cronbachs Alpha, 
wenn Item weg- wenn Item weg- Skala-Korrelation wenn Item weg- 

kan: gelassen gelassen gelassen 
013/1 43.6856 37.387 368 .762 

013/2 42.8790 37.893 ‚400 ‚759 

013/3 43.1207 37.287 402 758 

015/1 43.3473 37.905 ‚312 767 

015/2 43.0045 38.232 ‚339 .764 

017 43.4502 37.847 414 758 

018/1 42.3803 40.653 ‚211 772 

018/2 43.3249 38.227 407 ‚759 

018/3 43.1956 37.922 418 758 

018/4 44.0527 37.492 408 758 

028/1 44.9579 35.588 432 755 

028/2 44.4433 33.968 514 746 

028/3 44.7424 34.471 477 751 

028/4 45.7020 39.374 ‚293 767 


Anmerkungen. Q13: Schwierigkeiten durch fehlende Materialien. Q15: Schwierigkeiten mit Regeln. Q17: 
Eignung der Testräume. Q18: Störungen in Testsituation. Q28: Einstellungen zur Anwendung von Tests. 
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Da bei einer erhöhten Anzahl von Items der Koeffizient auch ohne Zusammen- 
hang zwischen den Items steigen kann, würde ein höherer Koeffizient bei weni- 
ger Items für den tatsächlichen Zusammenhang und somit für die Qualität des 
ermittelten Index sprechen, dies war der Fall nach Wegnahme der Fragen 
Q15/3, Q18/5, Q28/5. Dennoch sollen die statistischen Kennzahlen nicht kritik- 
los übernommen werden, ansonsten bestünde auch hier die Gefahr, dass „der 
Koeffizient in gut und böse, ohne Verstand, aber mit dem Taschenrechner ge- 
horsam abgehakt, befolgt und verfolgt werde“ (Kersting, 2006, S. 248). Zur end- 
gültigen Bestimmung der Items, die zu dem Schwierigkeiten-Index gehören 
werden, soll eine abschließende inhaltliche Betrachtung vorgenommen werden. 
Folgende Fragen mit eigentlich akzeptablem Koeffizienten sind entfernt wor- 
den, da sie zu weit entfernt von dem Konstrukt Schwierigkeiten scheinen: 


e Steht mir nicht genügend Vorbereitungszeit zur Verfügung für einen Test, 
bereite ich mich in der Freizeit vor (Q28/4). 
e Mir fällt die Durchführung von Intelligenztests leicht (Q28/5). 


Folgende Fragen scheinen jedoch gut Schwierigkeiten im Rahmen der Anwen- 
dung von Intelligenztests abzubilden, werden z.B. als Schwierigkeiten bei Schu- 
lungen zu Intelligenztests benannt und werden deshalb zunächst aufgenommen 
in den Index, auch wenn Alpha sich etwas verringert: 


e Folgende Durchführungsregeln bereiten mir Schwierigkeiten: Ausrechnen des 
Testalters (Q15/3). 

e Wurden Sie schon mal während einer Testung gestört durch Lautsprecher- 
durchsagen (Q18/5)? 


Sowohl inhaltlich als auch unter Berücksichtigung akzeptabler Alpha-Werte er- 
gäbe sich daraus eine Skala bestehend aus 14 Items. Leider sind die Hinweise zu 
der korrigierten Item-Skala-Korrelation (Trennschärfe) nicht für alle Items be- 
friedigend, da unter .3. 

Entsprechend der Empfehlung von Hemmerich (2015a, ohne Seitenangabe) 
sollten „Items mit einer Trennschärfe unter .3 verworfen (...) werden“. Zu- 
gunsten einer gültigen Skala und unter Ausschluss vermeintlich inhaltlich pas- 
sender Items besteht der endgültige Schwierigkeiten-Index nun aus den aus 
Tabelle 14 ersichtlichen 11 Items. 

Aus Gründen der Nachvollziehbarkeit werden in Tabelle 14 die Fragen wie- 
derholt, der nun ermittelte Alpha nach Cronbach beträgt .743 (N = 1074). 
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Tabelle 14. Items des Schwierigkeiten-Index. 


Frage Alpha, wenn Korr. Item- 
Item weg- Skala- 
gelassen Korrelation 
Q13/1 Wenn Sie testen möchten, kommt es vor, dass einige Ihrer .126 ‚377 
Intelligenztests nicht zur Verfügung stehen (z.B. ausgeliehen 
sind etc.)? 
Q13/2 Wenn Sie testen möchten, kommt es vor, dass die Test- .720 ‚429 
materialien unvollständig sind (z. B. fehlende Puzzleteile)? 
Q13/3 Wenn Sie testen möchten, kommt es vor, dass Formulare/ .719 ‚429 
Arbeitsbögen fehlen? 
Q15/1 Folgende Durchführungsregeln bereiten mir Schwierigkeiten: ‚734 .318 
Umkehrregeln 
Q15/2 Folgende Durchführungsregeln bereiten mir Schwierigkeiten: .727 ‚353 
Abbruchregeln 
Q17 Sind die Testräume geeignet? .720 ‚428 
Q18/2 Wurden Sie schon mal während einer Testung gestört ... .720 ‚435 


durch eine Person, die an die Tür geklopft hat? 


Q18/3 Wurden Sie schon mal während einer Testung gestört ... .719 ‚440 
durch eine Person, die den Raum betreten hat? 


Q18/4 Wurden Sie schon mal während einer Testung gestört ... .722 ‚408 
durch Geräusche (z. B. spielende Kinder, Verkehrslärm)? 


Q28/1 Bitte bewerten Sie folgende Aussagen: Im Rahmen meiner ‚731 ‚354 
Arbeit steht mir zu wenig Vorbereitungszeit für das Lernen 
eines normierten Tests zur Verfügung. 


Q28/2 Bitte bewerten Sie folgende Aussagen: Heutzutage habe .727 ‚387 


ich weniger Zeit für die Anwendung eines Intelligenztests. 


Anmerkung. Korr. = korrigierte. 


4.3 Analyse von ausgewerteten Intelligenztestformularen 


Neben dem Fragebogen werden Intelligenztestformulare analysiert, um insbe- 
sondere zu klären, ob tatsächlich Mängel in der Durchführungs- und Auswer- 
tungsobjektivität bei der Anwendung der Tests im sonderpädagogischen Alltag 
vorliegen. Die Testformulare sind zur Prüfung von mehreren Schulämtern zu- 
gesandt worden. Die Formulare sind während der Testanwendungen zum Zwe- 
cke der Dokumentation entstanden. Die Intelligenztests wurden ausschließlich 
von SonderpädagogInnen im Rahmen einer Prüfung durchgeführt, ob sonder- 
pädagogischer Förderbedarf vorliegt oder nicht, somit war die Anwendung der 
Intelligenztests ein Hilfsmittel während der Gutachtenerstellung. 

Im Zentrum des Interesses steht eine Auszählung entdeckter Fehler bei der 
Auswertung oder Durchführung von Intelligenztests. Es können selbstverständ- 
lich nur aus den Aufzeichnungen ableitbare Fehler dokumentiert werden. Nicht 
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nachvollziehbare Mängel während der Testdurchführung durch z.B. zu weit 
gehende Erläuterungen der Instruktionen oder durch das Geben von Rückmel- 
dungen während der Testsituation, wenn dies nicht vorgesehen ist, entfallen 
ebenso wie Analysen darüber, welche genauen Veränderungen bei den Gesamt- 
werten entstehen würden ohne die jeweils entdeckten Fehler. Letzteres wäre 
auch nicht möglich, da die aus den Fehlern resultierenden Veränderungen 
nicht eindeutig zu bestimmen sind. Würde z.B. das Anfangsitem in einem Sub- 
test falsch bestimmt werden und somit die Durchführung von Aufgaben durch 
das Kind entfallen, könnte im Nachhinein keine Bewertung für irrtümlich aus- 
gelassene Items vermutet werden. Ohne diese genaue Bewertung kann aber 
kein Rohwert und somit kein exakter Abgleich mit einer Normstichprobe statt- 
finden. Dennoch ergeben sich zuweilen aus den Analysen der Testformulare 
Hinweise über veränderte Testergebnisse bei einer korrekten Durchführung. 
Für die Analyse der Formulare wurden die Testprotokolle zunächst sortiert 
und mit einem Deckblatt versehen, auf dem übersichtlich alle nach der Durch- 
sicht entstandenen Daten eingetragen worden sind. Bei Bedarf wurden Namen 
mit einem Stift geschwärzt. Die Formulare wurden mit Hilfe der Testmanuale 
gesichtet. Alle zehn Tests, die für die Auszählung in Frage kommen, sind dem 
Autoren aus eigener Praxis bekannt und für alle Tests lagen die vollständigen 
Testmaterialien vor. Geprüft sind die Formulare auf folgende Kriterien: 


e Alter: prüft, ob das Alter am Testtag richtig ausgerechnet worden ist. Wäre 
dies nicht der Fall, bestünde die Gefahr, die Rohwerte mit der falschen Al- 
tersnormstichprobe zu vergleichen. Da beim Berechnen des Testalters rigide 
Vorgaben eingehalten werden müssen und weder auf- noch abgerundet 
werden darf, ist das Berechnen des Testalters fehleranfällig. 

e Test: welcher Test wurde verwendet. 

e Computerauswertung: wurden die Ergebnisse manuell oder mit Hilfe eines 
PC-Programms berechnet. 

e Punkte/Auswertung: prüft, ob die Punkte richtig gezählt worden sind. Da 
eine falsche Bewertung zu falsch gezählten Punkten führen kann, diese bei- 
den Aspekte sich also bedingen, sind beide Aspekte zu einem Kriterium zu- 
sammengefasst worden. 

e Umkehrregel: liegt ein Anfangsitem nicht bei Aufgabe 1 und hat das Kind 
bei einem der altersentsprechenden Anfangsitems einen Fehler gemacht, 
muss entsprechend der je nach Test unterschiedlichen Umkehrregeln zu 
den einfacheren Aufgaben umgekehrt werden. 

e  Abbruchregel: Jeder Test, gelegentlich sogar Subtests innerhalb einer Test- 
batterie haben unterschiedliche Abbruchregeln. Diese bestimmen, nach wie 
vielen Fehlern in Folge der Subtest abgebrochen werden muss. 

e Anfangsitem: prüft, ob das altersentsprechende Anfangsitem gewählt wurde. 
Bei adaptiven Testverfahren (z.B. SON-R 6-40) werden Anfangsitems auch 
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abhängig von den Leistungen vorheriger Testaufgaben bestimmt. Die Leis- 
tung des Kinds in einem Durchgang wird somit adaptiert für den nächsten 
Durchgang, um eine evtl. Unter- bzw. Überforderung zu vermeiden. 

e Gesamtfehler: Gesamtheit aller oben beschriebenen fünf Fehlerkategorien. 

e Auswirkungen: es ist in einigen Fällen möglich, Aussagen darüber zu ma- 
chen, ob gefundene Fehler zu einem veränderten Ergebnis geführt hätten. 
Ab einem gefundenen Fehler/ProbandIn werden Aussagen gemacht über 
entweder mögliche Auswirkungen auf das Testergebnis oder keine Auswir- 
kungen. In einigen Fällen ist es möglich, dass sich die Testergebnisse bei 
korrekter Auswertung teils über eine Standardabweichung hinaus verän- 
dern würden. Unabhängig von den statistischen Berechnungen werden Bei- 
spiele an späterer Stelle qualitativ vorgestellt. 


Die Formulare sollen auf die Anzahl gemachter Fehler und Fehlerarten unter- 
sucht werden. Geprüft werden ausschließlich Formulare, die folgenden Krite- 
rien entsprechen: 


e es handelt sich um einen dieser Intelligenztests: CFT-Reihe, WNV, KABC- 
II, K-ABC, SON-R 5%-17, SON-R 6-40, WPPSI-IIL, WISC-IV, IDS, 

e die Kopien sind anonymisiert (z.B. Abkleben der Namen; Überschreiben 
mit einem schwarzen Stift etc.), 

e der Intelligenztest wurde von einer Sonderpädagogin bzw. einem Sonder- 
pädagogen durchgeführt, 

e der Intelligenztest wurde im Rahmen zur Feststellung sonderpädagogischen 
Unterstützungsbedarfs durchgeführt, 

e das Formular ist vollständig kopiert (wenn möglich inkl. evtl. Zusatzbögen). 


Angeschrieben worden sind aus dem beruflichen Kontext bekannte SchulrätIn- 
nen bzw. Einzelpersonen. Die beteiligten Einrichtungen erhalten als Gegen- 
leistung für eine zukünftige Fortbildung vergünstigte Konditionen und nach 
Abschluss dieser Untersuchung eine schriftliche Rückmeldung über Auffällig- 
keiten und entdeckte Fehler bzw. Fehlerarten für die Umsetzung gezielter Ver- 
besserungen. So kann beispielsweise in einem Schulkreis darauf hingewiesen 
werden, dass beim SON-R 6-40 überproportional häufig das Anfangsitem 
falsch bestimmt worden ist bzw. beim Subtest Wahrnehmung Visuell der IDS 
häufig die Auswertungsregeln falsch angewendet worden sind. 

Allen Einrichtungen wurde ein anonymes Vorgehen zugesichert, dies be- 
inhaltet keine Nennung des jeweiligen Schulamts. 
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4.4 Beschreibung der Stichprobe: Fragebogen 


Insgesamt 6339 E-Mails mit der Bitte um Teilnahme an der Online-Befragung 
wurden versendet an ehemalige TeilnehmerInnen von Fortbildungen zu Intelli- 
genztests. Überwiegend nahmen SonderpädagogInnen an den Fortbildungen 
teil, seltener PsychologInnen und andere Berufsgruppen. Hinzu kommen ca. 
857% versendete E-Mails an Schulleitungen von Schulen, in denen Inhouse-Se- 
minare stattfanden mit der Bitte um Weiterleitung an das Kollegium. Da nicht 
bekannt ist, wie viele Weiterleitungen vorgenommen worden sind, kann eine 
genaue Rücklaufquote nicht ermittelt werden. 

Es lagen bis zum Februar 2018 1323 ausgefüllte Fragebögen vor. Danach 
wurde das Portal für den Fragebogen geschlossen. Ca. zwei Drittel der Fragebö- 
gen wurden im April und Mai 2017 ausgefüllt. Aus strategischen Gründen wur- 
den einige E-Mails mit der Bitte um Teilnahme erst nach einer Sichtung der 
ersten Daten versendet. So sollte die Möglichkeit erhalten bleiben, auch nach ei- 
ner möglichen Entdeckung methodischer Mängel für einen modifizierten Frage- 
bogen weitere potentielle TeilnehmerInnen anschreiben zu können. Da weder 
Mängel noch andere Probleme nach Sichtung der ersten Daten festgestellt wer- 
den konnten, wurden weitere E-Mails mit der Bitte um Teilnahme versendet, so 
dass ca. ein letztes Drittel der Fragebögen im Oktober und November 2017 
ausgefüllt worden sind. 

Von den 1323 ausgefüllten Fragebögen sind einige von der Auswertung 
ausgeschlossen worden: 


e Alle Fragebögen, die auf die Frage nach der Profession nicht mit Sonder- 
pädagoge/Sonderpädagogin geantwortet haben. 

e Alle Fragebögen, die nicht komplett beantwortet worden sind. Da die An- 
zahl der ProbandInnen als ausreichend groß eingeschätzt wird, konnte auf 
die unvollständig ausgefüllten Fragebögen verzichtet werden. Interessante 
Rückschlüsse, die gelegentlich über die Abbruchquote bei Studien gezogen 
werden könnten (z.B. Studien über Impulsivität), sind im Rahmen dieser 
Studie nicht zu erwarten und also ohne Relevanz. 

e Fragebögen, die bei der Beantwortung der Frage nach dem Geschlecht nicht 
eindeutig mit Mann oder Frau geantwortet haben. Die in den ersten Tagen 
nach der Veröffentlichung des Fragebogens bestehende Antwortmöglichkeit 
andere Angaben zum Geschlecht führte bei einigen Teilnehmenden offen- 
sichtlich zur Verwirrung und wurde mit Antworten wie Sonderschullehrer, 
sehr engagiert, Lehrerin und Psychologin, kinderlieb und ehrgeizig und weite- 
ren beantwortet. Sehr zügig wurde das konservative Antwortformat bei der 


76 „Ca.“ deshalb, da eine doppelte Anschrift nicht ausgeschlossen werden kann. 
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Frage nach dem Geschlecht Mann bzw. Frau gewählt und weitere Ant- 
wortmöglichkeiten herausgenommen. Eine Verzerrung durch diese Verän- 
derung im Fragebogen nach wenigen Tagen wird ausgeschlossen, zumal die 
nicht eindeutigen Antworten (s.o.) aus der Auswertung herausgenommen 
worden sind. 

e Fragebögen ohne Altersangaben, da für die entsprechenden ProbandInnen 
keine Gewichtung möglich ist, 

e Alle Fragebögen, die nach dem Februar 2018 beantwortet worden sind. 


In die Auswertung sind 1077 vollständig ausgefüllte und ausschließlich von 
SonderpädagogInnen ausgefüllte Fragebögen übernommen worden, davon 943 
Sonderpädagoginnen und 134 Sonderpädagogen. Das Durchschnittsalter der 
Gesamtstichprobe beträgt gerundet 45 Jahre, die Standardabweichung 9.27 Jah- 
re. Die jüngste Teilnehmerin ist 26 Jahre, die älteste Teilnehmerin 66 Jahre alt. 
108 der 1077 ProbandInnen nahmen niemals an einer Fortbildung zu stan- 
dardisierten Verfahren teil, diese Personengruppe diente als Kontrollgruppe. 
Durch eine Anpassung der Gewichtungsfaktoren (siehe Kapitel 5.1) für die ers- 
ten sieben Fragestellungen verringert sich die Gesamtfallzahl auf 1037. Unbe- 
rücksichtigt blieben die ProbandInnen, die weder der Versuchs- noch der Kon- 
trollgruppe eindeutig zuzuordnen waren (siehe Tabelle 16). 


4.5 Beschreibung der Stichprobe: Formularprüfung 


Aus sechs Schulämtern bzw. Schulberatungszentren sind 271 Intelligenztest- 
Formulare zur Verfügung gestellt worden. Hinzu kommen Formulare von fünf 
Einzelpersonen. Die Formulare sollten untersucht werden auf Anzahl gemach- 
ter Fehler, Fehlerarten und Hinweise auf die verwendeten Testverfahren geben. 
Geprüft worden sind ausschließlich Formulare, die den in Kapitel 4.3 beschrie- 
benen Kriterien entsprachen. 

28 Formulare fließen nicht in die Auswertung mit ein, vor allem auf Grund 
unvollständiger Angaben. Insgesamt wurden 248 Formulare überprüft. 

Allen Einrichtungen wurde ein anonymes Vorgehen zugesichert (siehe An- 
schreiben/Datenschutzerklärung im Online-Material), dies beinhaltet keine 
Nennung des jeweiligen Schulamts. Vier beteiligte Schulämter befinden sich in 
Nordrhein-Westfalen, eines in Brandenburg und eine Einrichtung ist ein regio- 
nales Bildungs- und Beratungszentrum (ReBBZ) in Hamburg, vergleichbar mit 
einem Schulamt. 
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5 Ergebnisse 


Die Darstellung der Ergebnisse unterteilt sich in die Auswertung der Fragebö- 
gen, sowie in der Analyse der Testformulare, die auf Fehler überprüft worden 
sind. 

Für beide Forschungszweige werden die Ergebnisse zunächst deskriptivsta- 
tistisch und zusammenfassend vorgestellt. Schwerpunkt dieses Kapitels wird je- 
doch die anschließende Vorstellung der Ergebnisse aus den inferenzstatisti- 
schen Berechnungen bzw. Hypothesenprüfungen sein. 

Für die Auswertung der Fragebögen wurden die Daten von dem Server sur- 
veymonkey zur Datenerfassung heruntergeladen und über das Programm Excel 
in SPSS konvertiert. Das Erstellen einer Datenmaske als Grundlage für die Be- 
rechnungen wurde als fehleranfällig angenommen. Deshalb wurde besondere 
Sorgfalt verwendet und es wurden mehrere Kontrollen vorgenommen, damit 
z. B. ein Verrutschen von Zeilen nicht zu invaliden Ergebnissen führt. Zunächst 
sind alle Rohdaten in numerische Daten umgewandelt worden. Mehrere Er- 
gebniszeilen sind danach mehrfach abgeglichen worden mit den heruntergela- 
denen Rohdaten, um ein Verrutschen der Zeilen zu verhindern. Nachdem die 
fertige Datenmaske vorlag, wurden im Rahmen einer letzten Kontrolle erneut 
die Rohdaten vom Server heruntergeladen und mit der Datenmaske in Stich- 
proben abgeglichen. Dabei wurden besonders die letzten ProbandInnen geprüft 
(ab ProbandIn 1050), da bei fehlerfreien Daten davon ausgegangen werden 
konnte, dass davor keine Zeile verrutscht war, die Werteangaben in der Varia- 
blenansicht von SPSS nicht fehlerhaft und auch die Zuordnungen zu den Fra- 
gen fehlerfrei sind. 

Lediglich für eine Plausibilitätsprüfung der Daten wurde eine Interkorrela- 
tionsmatrix erstellt, auch um explorativ Zusammenhänge verschiedener Varia- 
blen zu prüfen. 

Für die Interkorrelationsmatrix sind alle Variablen nach den Skalenniveaus 
sortiert und gruppiert worden, metrische und ordinale Daten sind zusammen- 
gefügt, nominale Skalen wurden dummykodiert. Bei metrischen und ordinalen 
Skalen wurde mit der Produktmomentkorrelation nach Pearson geprüft, ob Zu- 
sammenhänge bestehen. Bei der Kombination binär/binär wurden Phi-Koeffi- 
zienten sowie Chi?- bzw. Fisher-Tests berechnet. Für die Kombination binär/ 
metrisch wurden punktbiseriale Korrelationskoeffizienten berechnet. Nicht 
nachvollziehbare Ergebnisse konnten nicht identifiziert werden, die evtl. eher 
für eine schlechte Datenqualität als für eine plausible Ableitung von Hypothe- 
sen sprechen könnten. 
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Der Mittelwert der Gewichtungen ist nicht gleich 1, deshalb konstruiert 
SPSS 24 etwas abweichende Fallzahlen für eine gültige Auswertung. Wenn nicht 
anders erwähnt, basieren die folgenden Ergebnisse aus gewichteten Daten. 


5.1 Gewichtungen 


Bei der Fragebogenauswertung sind die Daten nach Geschlecht und Alter ent- 
sprechend den Angaben des statistischen Bundesamtes zur Schulstatistik des 
Schuljahres 2016/2017 (Destatis, 2017) gewichtet worden. 

Für die Gewichtungen sind die Altersgruppen des statistischen Bundesamts 
übernommen worden. Tabelle 15 stellt dar, wie die 2017 erfassten berufstätigen 
SonderpädagoglInnen alters- und geschlechtsverteilt waren. 


Tabelle 15. Teil- und vollzeitbeschäftigte Sonderpädagoginnen im Schuljahr 
2016/2017 (Destatis, 2017). 


Alter gesamt <30 30-34 35-39 40-44 45-49 50-54 55-59 60-64 >64 
Jahre Jahre Jahre Jahre Jahre Jahre Jahre Jahre Jahre 


gesamt 68134 4166 8442 792 9121 8833 9282 11006 8956 357 


männl. 15485 546 1741 184 2101 2151 1895 2592 2442 153 


weibl. 52649 3620 6701 6098 7020 6682 7387 8414 6514 204 


Für die deskriptivstatistischen Auswertungen sind die Gewichtungen nach Al- 
ter und Geschlecht verwendet worden (N = 1077). 

Für die inferenzstatistischen Auswertungen sind die Gewichtungen ange- 
passt worden. Da vielfach zwischen den Ergebnissen der Kontroll- und der Ver- 
suchsgruppe unterschieden wird, bleiben alle ProbandInnen unberücksichtigt, 
die nicht eindeutig zuzuordnen sind. 

Die Kontrollgruppe besteht aus den ProbandInnen, die noch nicht an einer 
Fortbildung zu Intelligenztests teilgenommen haben (Q25), also weder als be- 
sonders testaffin angenommen werden noch mit dem Untersucher in Kontakt 
gekommen sind. Deshalb wird die Kontrollgruppe als repräsentativer für die 
Gesamtheit angenommen, die Gewichtungen erhöhen somit zusätzlich diese 
Annahme. Die Gesamtstichprobe verringert sich um 40 ProbandInnen, da diese 
auf die Frage Q25 (an Fortbildungen teilgenommen) nicht antworteten, die 
Antwort für die Bestimmung der Versuchs- bzw. Kontrollgruppe allerdings 
notwendig war. Nach dieser Bereinigung betrug N = 1037. 

Tabelle 16 stellt die aus diesen Daten resultierenden Gewichtungsfaktoren 
bei den Berechnungen dar. 
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Tabelle 16. Anzahl ProbandInnen (N) und daraus resultierende Gewichtungsfaktoren 
(GF). 


Alter <30 30-34 35-39 40-44 45-49 50-54 55-59 60-64 >64 
Jahre Jahre Jahre Jahre Jahre Jahre Jahre Jahre Jahre 

w männl. N: 3 18 20 24 24 16 18 IT n.v. 
2 GF: 2.88 1.53 1.47 1.38 1.42 1.87 2.28 3.51 
© 
3 weibl. N: 38 117 143 201 156 120 117. 56 1 
[0} GF: 1.501 0.91 0.67 0.55 0.68 0.97 1.20 1.84 3.22 
b männl. N: 1 14 19 18 24 15 15 10 n.v. 
5 D GF: 7.44 1.70 1.34 1.59 1.22 1.72 2.36 3.33 
52 
5 5 weibl. N: 21 99 120 175 143 103 99 52 1 
= GF; 2.35 0.92 0.69 0.55 0.64 0.98 1.16 1.71 2.78 
i männl. N: 2 4 1 4 n. v. n.v. 3 1 n.v. 
Te GF: 0.43 0.69 2.95 0.83 1.34 3.87 
52 
G 5 weibl. N: 17 14 19 17 10 7 6 3 n.v. 


GF: 0.34 0.76 0:51 0.65 1.06 1.67 2.22 3.44 


Anmerkung. Obere zwei Zeilen: Gewichtung nach Alter und Geschlecht. Untere vier Zeilen: Gewichtung 
nach Alter und Geschlecht, angepasst an die Möglichkeit der Unterscheidung von Versuchs- und Kontroll- 
gruppe. n.v. = nicht vorhanden. 


5.2 Gesamt-, Versuchs- und Kontrollgruppe 


Die Auswahl der ProbandInnen für die Beantwortung des Fragebogens resul- 
tiert überwiegend aus Anfragen an ehemalige TeilnehmerInnen von Diagnos- 
tikseminaren. Verzerrungen aus einer selektiven Stichprobe sollen durch den 
Vergleich mit einer Kontrollgruppe umgangen werden. Diese besteht aus Pro- 
bandInnen, die niemals an einer außeruniversitären Fortbildung zur Testdia- 
gnostik teilgenommen haben und entsprechend weder von der Person beein- 
flusst sind, die die Fortbildung durchgeführt hat (in der Regel der Autor dieser 
Arbeit) noch von den Inhalten der Fortbildung oder den Motiven für die Teil- 
nahme an der Fortbildung (z.B. Vertiefung in die KABC-II). 

Somit kann angenommen werden, dass die ProbandInnen der Kontroll- 
gruppe repräsentativer für die Gesamtheit der SonderpädagogInnen stehen. Die 
Unterscheidung wird relevant ab der inferenzstatistischen Auswertung. 

Es gilt folgende Begriffsbestimmung für die inferenzstatistischen Auswer- 
tungen: 


Gesamtgruppe: Alle ProbandInnen (N = 1037) 

Versuchsgruppe: alle ProbandInnen, die an einer außeruniversitären Fortbil- 
dung teilgenommen haben (N = 929) 

Kontrollgruppe: alle ProbandInnen, die nicht an einer außeruniversitären Fort- 
bildung teilgenommen haben (N = 108). 
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5.3 Deskriptivstatistische Auswertung 
5.3.1 Auswertung Fragebögen 


Zu allen Fragen des Fragebogens werden Ergebnisse auf den folgenden Seiten in 
einer ausgewählten Übersicht dargestellt. 


Fragen zur Profession (Q1), Geschlecht (Q2), Alter (Q3), Förderschwerpunkt 
(Q43) und Schulort (Q44, Q45): 
Ausgeschlossen von den Auswertungen sind alle ProbandInnen, die nicht Son- 
derpädagoge/Sonderpädagogin als Profession angaben, demnach blieben 943 
(88%) Sonderpädagoginnen und 134 (12%) Sonderpädagogen. Dies entspricht 
nicht der Verteilung des statistischen Bundesamtes (Destatis, 2017) (weiblich 
77,27%, männlich 22,73%). Im Folgenden werden alle statistisch auswertbaren 
Daten analysiert. Ausgenommen sind deshalb qualitative Anmerkungen zu den 
Fragen, dessen durchaus interessante Auswertung unabhängig von dieser Stu- 
die in Fachartikel münden könnten. 

Das Alter der jüngsten Teilnehmerin ist 26 Jahre, das der ältesten Teilneh- 
merin 66 Jahre (siehe Abbildung 6). Das Durchschnittsalter aller ProbandInnen 
beträgt 44,55 Jahre (SD = 9,27 Jahre). 


Abbildung 6. Darstellung Alter und Geschlecht. 
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Bei der Angabe zum Förderschwerpunkt’”’ (Abbildung 7) waren Mehrfachnen- 
nungen möglich (Abbildung 7), da in vielen Regionen Schwerpunkte zusam- 
mengelegt worden sind (z.B. arbeiten in NRW viele SonderpädagogInnen im 
kombinierten Förderschwerpunkt Lernen/Sozial-Emotional/Sprache). Dies sind 
auch die Förderschwerpunkte, die neben dem Schwerpunkt Geistige Entwick- 
lung am häufigsten angegeben worden sind. 


Abbildung 7. Förderschwerpunkte, in denen gearbeitet wird, in Anzahl der ProbandlIn- 
nen. 
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353 ProbandInnen arbeiten in einer Großstadt ab 100000 EinwohnerInnen, 74 
in einer Millionenstadt, 351 in einer mittelgroßen Stadt (unter 100 000) und 270 
in Kleinstädten und kleineren Gemeinden. 

Die mit Abstand größte Gruppe der Teilnehmenden kommt aus Nordrhein- 
Westfalen (N = 472). Gültige Bundesländer-Vergleiche sind neben Nordrhein- 
Westfalen ebenfalls anzunehmen für Hessen (N = 125), Niedersachsen (N = 
139) und Baden-Württemberg (N = 145). Kleinere Stichproben liegen für Ham- 
burg (N = 30), Rheinland-Pfalz (N = 52) und Schleswig-Holstein (N = 31) vor 
(siehe Abbildung 8). 


77 Angaben zum Förderschwerpunkt, Schulort, Alter und Geschlecht sind nicht gewichtet 
ausgewertet worden. 
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Abbildung 8. Die Arbeitsorte der Teilnehmenden in Anzahl der ProbandiInnen. 
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Zusammenfassung aller Ja/Nein, Ja/Nein/Weiß Nicht bzw. 
Ja/Nein/Anmerkungen Fragen (Q4, 06, 09, 010, Q23, Q25)”®: 

83.7 Prozent (N = 900) aller ProbandInnen werden in Zukunft Intelligenztests 
durchführen, 97.2 Prozent (N = 1045) haben bereits einen Intelligenztest 
durchgeführt, von 72 Prozent (N = 774) wird erwartet, Intelligenztests durchzu- 
führen, jedoch 60.2 Prozent (N = 647) gaben an, nach eigenem Ermessen Intel- 
ligenztests durchzuführen. An der Universität probierten 60.6 Prozent (N = 
651) Intelligenztests aus (siehe Tabelle 17). 

Besondere Bedeutung erhält die Frage nach der Teilnahme an einer außer- 
universitären Fortbildung (Q25). Ungewichtet und also real verneinten dies 
108 Personen. Dieser Personenkreis wird für eine Kontrollgruppe genutzt wer- 
den. Gruppenvergleiche könnten Auskunft geben über bessere Rückschlüsse 
der Ergebnisse auf die Grundgesamtheit der SonderpädagoglInnen. 


78 Hinweis: da der Mittelwert der Gewichtungen nicht gleich 1 ist, sondern .9976, konstru- 
iert SPSS etwas kleinere Fallzahlen für eine gültige Auswertung. Daraus resultieren von 
N 1077 abweichende Angaben. 
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Tabelle 17. Übersicht überwiegend dichotomer Fragen. 


Nr. Frage Ja Nein weiß Anmer- fehlend 
nicht kungen 
Q4 Ich werde in Zukunft Intelligenztests 900 33 132 - 10 
durchführen. 83.7 % 3.0% 12.3% 9.0% 
QG Haben Sie bereits mit einem Kind einen 1045 25 - - 5 
Intelligenztest durchgeführt? 97.2% 2.3% 4.0% 
Q9 Wird von Ihnen erwartet, einen Intelli- 774 155 - 111 35 
genztest durchzuführen? 72.0% 14.4% 10.3% 3.2% 
Q10 Entscheiden Sie nach eigenem Ermes- 647 232 - - 196 
sen, Intelligenztests durchzuführen? 60.2% 21.6% 18.2% 
Q23 Haben Sie an der Uni Intelligenztests 651 291 49 - 84 
durchgeführt? 60.6% 27.0% 4.6% 7.8% 
Q25 Haben Sie an einer außeruniversitären 922 116 - - 37 
Fortbildung zu Intelligenztests teilge- 85.8% 10.8% 3.4% 
nommen? 


Testergebnisse aus folgenden Tests sind aussagekräftig (Q5)”°: 

Die eingeschätzte Aussagekraft der Intelligenztests (siehe Abbildung 9, nächste 
Seite) ist wichtig für weitere Fragestellungen, z.B. ob die aussagekräftigsten 
oder eher die einfach durchzuführenden Tests angewendet werden. Die zwei 
mehrdimensionalen Tests KABC-II (MW = 1.77) und WISC-IV (MW = 2.15) 
sowie die IDS (MW = 2.18) und der eindimensionale SON-R 6-40 (MW = 2.26) 
werden als am aussagekräftigsten eingeschätzt; die Tests der CFT-Reihe als am 
wenigsten aussagekräftig (CFT1-R: MW = 2.97; CFT20-R: MW = 2.84), obwohl 
die Tests der CFT-Reihe und der SON-R 6-40 objektiv betrachtet jeweils ledig- 
lich einen interpretierbaren Hinweis auf einen Gesamtwert ermitteln, über die- 
ses Ergebnis hinaus jedoch keine weiteren Interpretationen möglich sind. 


Fragen zur Anwendung der Testverfahren (Q7, Q8, Q12): 

Abbildung 10 (nächste Seite) zeigt, welche Tests bereits durchgeführt worden 
sind (Q7). Bei mehreren Tests (WPPSI-II, WNV, SON-R 6-40, IDS) ist die 
Antwort nie (blauer Balken) häufiger angegeben als die anderen Antwortmög- 
lichkeiten zusammen (1-3-mal, 4-7-mal, mehr als 7-mal). Allein beim CFT1/ 
CFTI-R ist die Antwort nie nicht die am häufigsten genannte Antwort. Abbil- 
dung 10 verdeutlicht, dass der WPPSI-III (nie: 85,61%) und der WNV (nie: 
92,5%) selten angewendet worden sind. Neben dem CFT1/CFT1-R (mehr als 7- 
mal: 34,40%) und dem CFT20-R (mehr als 7-mal: 27,57%) wurde die KABC-I 
ebenfalls häufiger als 7-mal durchgeführt (20,33%). Dies sind auch die drei am 


79 Likert-Skala: außerordentlich (1) - ziemlich (2) - mittelmäßig (3) - kaum (4) - gar nicht 
(5). 
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Abbildung 9. Eingeschätzte Aussagekraft der Intelligenztests (von außerordentlich (1) 
bis gar nicht (5)). 


KABC- mn 1,77 
WISC-IV En 2,15 
IDS M 2,18 
SON-R 6-40 ME 2,26 
SON-R 216-7 M 2,32 
WPPSI-Ill En 2,43 
WNV En 2,46 
K-ABC M 2,47 
SON-R 512-17 En 2,51 
CFT20-R M 2,84 
CFT1/CFT1-R M 2,97 


Abbildung 10. Häufigkeit der bisherigen Anwendung von Intelligenztests. 
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häufigsten angewendeten Tests. Somit wurden die als am wenigsten aussage- 
kräftigen eingeschätzten Tests (Q5; CFT1/CFT1-R; CFT20-R) und der als am 
aussagekräftigsten eingeschätzte Test (KABC-II) am häufigsten durchgeführt. 

Während die vorherige Frage (Q7) auch nach früher angewendeten Verfah- 
ren fragt, die aktuell nicht mehr Anwendung finden dürften (z.B. K-ABC), wird 
mit Q8 (wenn ich teste, nehme ich folgende Tests (...)®) nach aktuell verwende- 
ten Intelligenztests gefragt. Besonders im Zusammenhang mit der eingeschätz- 
ten Aussagekraft und den zur Verfügung stehenden Tests sind hier Rückschlüs- 
se über die Anwendung von Intelligenztests in der Sonderpädagogik möglich. 

Aus den Antwortmöglichkeiten von immer bis nie und den daraus resultie- 
renden Mittelwertvergleichen (siehe Abbildung 11) ist ein Vergleich zwischen 
den aktuell verwendeten Tests möglich. Am häufigsten werden aktuell die 
KABC-I (MW = 3.24) und die beiden Tests der CFT-Reihe angewendet 
(CFT1/CFT1-R: MW = 3.42; CFT20-R: MW = 3.47), am seltensten der WPPSI- 
III (MW = 4.65) und der WNV (MW = 4.75). Es fällt auf, dass der veraltete 
SON-R 5%-17 aktuell häufiger anwendet wird als der WISC-IV (MW = 3.78) 
oder die IDS (MW = 4.13). 


Abbildung 11. Mittelwertvergleich für die Häufigkeit in der Anwendung aktuell genutzter 
Intelligenztests von immer (1) bis nie (5). 


KABC-Il ME 3,24 
CFT1/CFT1-R M 3,43 
CFT20-R E 3,47 
SON-R 6-40 M 3,70 
SON-R 210-7 M 3,72 
SON-R 52-17 M 3,74 
WISC-IV E 3,78 
IDS M 4,13 
K-ABC M 4,29 
WPPSI-II E 4,65 
WNV A 4,75 


1,00 2,00 3,00 4,00 5,00 


Q12 fragte nach den zur Verfügung stehenden Tests. Diese Frage ist u.a. inte- 
ressant für die Prüfung des Zusammenhangs zwischen zur Verfügung stehen- 


80 Likert-Skala: immer (1) - oft (2) - gelegentlich (3) - selten (4) - nie (5) 
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der Tests und tatsächlich angewendeter Tests. Am häufigsten stehen der 
CFT1/CFT1-R (N = 694), der CFT20-R (N = 660) und die KABC-I (N = 625) 
zur Verfügung, am seltensten der WPPSI-IH (N = 153) und der WNV (N = 75) 
bei N = 1077 (siehe Abbildung 12). 


Abbildung 12. Intelligenztests, die zur Verfügung stehen (Mehrfachnennungen mög- 
lich). 
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Tabelle 18. Anzahl der zur Verfügung stehenden Tests. 


Anzahl Tests Häufigkeit Prozent Kumulierte Prozente 
[0] 45 4.4 4.4 
1 48 4.7 9.0 
2 85 8.2 17.3 
3 168 16.4 33.7 
4 201 19.6 53.3 
5 157 15.3 68.5 
6 118 11.5 80.1 
7 102 99 90.0 
8 55 5.4 95.4 
9 34 33 98.7 
10 11 1.1 99.8 
11 2 0.2 100.0 
Gesamt 1028 100.0 


Interessant ist auch, wie viele Intelligenztests insgesamt zur Verfügung stehen. 
Tabelle 18 zeigt, dass in der Regel mehrere Tests zur Auswahl stehen, ca. die 
Hälfte der SonderpädagogInnen verfügen über vier oder mehr Intelligenztests. 


Fragen zu Schwierigkeiten bei der Anwendung der Tests (013-018): 

Q13 ermittelte äußere Umstände, die die Anwendungen von Intelligenztests er- 
schweren. Bei den erfragten Möglichkeiten liegt am häufigsten das Fehlen eines 
Tests vor, wenn getestet werden soll (MW = 3,45; SD = 0.99), seltener das Feh- 
len von Formularen in Testsituationen (MW = 4,00; SD = 0.93) und am seltens- 
ten werden unvollständige Materialien beschrieben (MW = 4,23; SD = 0.84). 

Im Gegensatz zu der vorherigen Frage (Q13), die nach von außen bedingten 
Schwierigkeiten bei der Anwendung von Intelligenztests fragt, werden mit Q14 
bewusst herbeigeführte Regelverletzungen erfragt, die die Durchführungsobjek- 
tivität gefährden und bereits von Huber (2000) festgestellt worden sind. Die 
Mittelwertvergleiche bezeugen moderat bis selten vorgenommene Abweichun- 
gen bei unerlaubt gegebenen Feedbacks (MW = 3.94; SD = 0.87), dem Verän- 
dern von Durchführungszeiten (MW = 4.42; SD = 0.78) und beim gänzlichen 
Weglassen der Durchführungszeiten (MW = 4.71; SD = 0.66). Abbildung 13 
veranschaulicht die von außen bedingten Schwierigkeiten, Abbildung 14 die be- 
wusst herbeigeführten Veränderungen. 


Abbildung 13. Von außen bedingte Schwierigkeiten während der Testsituationen 
(Wenn sie testen möchten, kommt es vor (...)). 


45 


39 39 
35 


Prozent 
N 
{6} 


15 15 


3 
5 
(0) En 

immer oft gelegentlich selten nie 


dass ein Test fehlt Material unvollständig ist E Formulare fehlen 


149 


Abbildung 14. Veränderungen, die bei Testanwendungen vorgenommen worden sind 
(Welche dieser Veränderungen haben Sie schon einmal vorgenommen?). 
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Q15 fragte, welche Durchführungsregeln Schwierigkeiten bereiten (siehe Tabel- 
le 19). Es ist interessant, ob gelegentlich geäußerte Schwierigkeiten bei der 
Durchführung auch tatsächlich bestätigt werden, andererseits interessiert beim 
Vergleich mit gefundenen Fehlern nach der Prüfung von Formularen (angefer- 
tigt bei der Anwendung von Intelligenztests im Rahmen der Ermittlung son- 
derpädagogischen Unterstützungsbedarfs), ob die Häufigkeit von gemachten 
Fehlern mit den subjektiv empfundenen Schwierigkeiten bei der Anwendung 
korrelieren. Wäre dies so, müssten bei der Umkehrregel (MW = 3.75; SD = 
0.98) häufiger Fehler vorliegen als bei der Anwendung von Abbruchregeln 
(MW = 4.09; SD = 0.89) oder beim Berechnen des Testalters (MW = 4.47; SD = 
0.83)*'. Lediglich 26 Prozent der Befragten gab an, bei den Umkehrregeln gar 
nicht Schwierigkeiten zu empfinden. 


81 Es sei erneut darauf hingewiesen, dass subjektiv wenig empfundene Schwierigkeiten ge- 
gebenenfalls nicht positiv korrelieren müssen mit der Anzahl von gemachten Fehlern; 
immer dann, wenn ProbandInnen aus Mangel an genauen Kenntnissen über die entspre- 
chenden Regeln irrtümlich zu der Annahme verleitet werden könnten, die Regeln korrekt 
anzuwenden. 
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Tabelle 19. Durchführungsregeln, die als schwierig empfunden werden. 


außerordentlich ziemlich mittelmäßig kaum gar nicht 


Umkehr- n=7 n = 86 n =235 n=291 n=221 
regeln 1% 10% 28% 35% 26% 
Abbruch- n=6 n=48 n=169 n=401 n=375 
regeln 1% 5% 17% 40% 38% 
Testalter n=6 n=28 n=96 n=231 n=645 


berechnen 1% 3% 10% 23% 64% 


Überwiegend finden die Testanwendungen in wechselnden Räumen statt (Q16; 
n = 758), seltener in einem speziellen Testraum (N = 323) oder im Klassenzim- 
mer (N = 151). 31 SonderpädagoglInnen gaben an, im LehrerInnenzimmer zu 
testen. 

Obwohl es schwer vorstellbar ist, dass eine Testung im LehrerInnenzimmer 
optimale Testbedingungen bietet, ist dies bei entsprechender Vorbereitung 
nicht ausgeschlossen. Deshalb ist eher die Frage nach der empfundenen Eig- 
nung der Testräume interessant (Q17). Immerhin 8,3 Prozent der Befragten 
fanden die Räume selten oder nie geeignet (MW = 2.34; SD = 0.82). 

Von allen Befragten (N = 1033) gaben 122 (11.81%) immer, 534 (51.69%) 
oft an, in geeigneten Testräumen zu testen, siehe Abbildung 15. 


Abbildung 15. Eignung der Testräume (Q17: Sind die Testräume geeignet?). 
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Q18 fragte nach Störungen während der Testsituationen, welche vielfältig be- 
stätigt worden sind (siehe Tabelle 20). Am häufigsten kamen Störungen durch 
Geräusche vor (MW = 3.10; SD = 0.88), durch Personen, die geklopft haben 
(MW = 3.80; SD 0.77) und durch Personen, die den Raum betraten (MW = 
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3.92; SD = 0.79). Seltener wurden Störungen durch Lautsprecherdurchsagen 
(MW = 4.32; SD 0.85) und durch Telefonanrufe (MW = 4.73; SD = 0.60) ange- 
geben. 


Tabelle 20. Störungen während der Testdurchführung (Q18). 


N immer oft gelegentlich selten nie 
Telefon 1004 n=0 n=10 n=47 n=149 n= 798 
0% 1% 4.68% 14.84% 79.48% 
an Tür geklopft 1027 n=1 n=41 n = 304 n = 502 n = 180 
0.09% 3.99% 29.60 % 48.88% 17.53% 
Person betritt 1027 n=4 n=31 n = 243 n=514 n = 235 
Raum 0.39% 3.02% 23.66 % 50.05% 22.88% 
Geräusche 1037 n=16 n=241 n=472 n=242 n=66 
1.54% 23.24% 45.52% 23.34 % 6.36% 
Lautsprecher 1025 n=5 n=25 n=150 n = 296 n=549 
0.49% 2.44% 14.63% 28.88 % 53.56% 


30 Prozent der ProbandInnen gaben an immer mit Computerauswertungen 
auszuwerten (Q19: Werten Sie die Intelligenztests mit Computerauswertungen 
aus?”, siehe Abbildung 16), 31 Prozent oft, der Mittelwert liegt mit 2.52 (SD = 
1.43) im Sinne der Durchführungsobjektivität hoch (gelegentlich: 14%; selten: 
8%; nie: 17%, N = 1024). 


Abbildung 16. Auswertungshäufigkeit mit Computerprogrammen. 
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82 Likert-Skala: immer (1) - oft (2) - gelegentlich (3) - selten (4) - nie (5). 
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Bei der Frage, ob die Erklärungen in den Handbüchern der Tests verständlich 
sind (Q20)®, zeigte sich beim Mittelwertvergleich, dass die Handbücher der 
eindimensionalen Tests als verständlicher, die der mehrdimensionalen Tests als 
weniger verständlich empfunden werden. Es liegen insgesamt jedoch nur gerin- 
ge Mittelwertunterschiede vor (siehe Abbildung 17). 


Abbildung 17. Mittelwerte Verständlichkeit der Handbücher (dunkelgrau: mehrdimen- 
sional; hellgrau: eindimensional; grau: ohne Zuordnung). 
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Fragen zur universitären Ausbildung (Q21, Q22): 

Tabelle 21 und Tabelle 22 veranschaulichen die Fragen, welche bedeutsam sind 
zur Prüfung des Zusammenhangs von Schwierigkeiten bei der Anwendung der 
Tests und der vorherigen universitären Ausbildung. Auf die Frage, wie viele 
universitäre Seminare bzw. Vorlesungsreihen zur Testdiagnostik besucht wor- 
den sind (Q21; N = 1074), antworteten 36 ProbandInnen, dass sie kein Seminar 
dazu belegten (3.35%). Die meisten ProbandInnen belegten zwei Seminare 
(24.40%) mit abnehmender Tendenz (drei Seminare: 15.74%; vier Seminare: 
8.19%). Bei der Antwortmöglichkeit mehr als vier Seminare hingegen gibt es 
wieder eine Zunahme (20.39%). 


83 Likert-Skala: außerordentlich (1) - ziemlich (2) - mittelmäßig (3) - kaum (4) - gar nicht 
(5). 
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Tabelle 21. Anzahl belegter Seminare bzw. Vorlesungsreihen zur Testdiagnostik. 


keines 1 2 3 4 mehr als 4 fehlend 
n=36 n=148 n = 262 n=169 n=88 n= 219 n=152 
3.35% 13.78% 24.40 % 15.74% 8.19% 20.39% 14.15% 


Bei der Frage zur universitären Auseinandersetzung mit zentralen Begriffen der 
Testdiagnostik (Q22) wurde angegeben, sich damit im Rahmen des Studiums 
beschäftigt zu haben, die Zustimmungen befinden sich im oberen Quartil bis 
auf das Konstrukt Vertrauens-/Konfidenzintervall (Zustimmung: 70.08%). Die- 
ses Konstrukt hatte bei den Verneinungen auch den einzigen zweistelligen Pro- 
zentwert (11.48%). 


Tabelle 22. Angaben zur universitären Auseinandersetzung mit Basisbegriffen der 
Testdiagnostik. 


Basisbegriff N Ja Nein weiß nicht 
Standardabweichung 1063 n=910 n=65 n=88 
85.61% 6.11% 8.28% 
Durchführungsobjektivität 1063 n=876 n=67 n=120 
82.41% 6.31% 11.29% 
Vertrauens-/Konfidenzintervall 1063 n= 745 n=122 196 
70.08% 11.48% 18.44% 
Messungenauigkeit/-fehler 1062 n = 825 n=92 n=145 
77.68% 8.66% 13.65 % 
Gaußsche Kurve 1061 n=872 n=67 n=122 
82.19% 6.31% 11.50% 


Fragen zu Einschätzungen im Rahmen der Anwendung von Intelligenztests 
(028°) 

Die höchste Zustimmung (siehe Abbildung 18) erhielt die Frage, ob Tests in der 
Freizeit vorbereitet werden, wenn nicht genügend Zeit zur Verfügung steht 
(MW = 1.41; SD = 0.73). Für die Frage nach zu wenig zur Verfügung stehender 
Zeit während der Arbeitszeit gab es die zweithöchste Zustimmung (MW = 2.18; 
SD = 1.12). Der Mittelwert auf die Frage, ob Ergebnisse Eltern in ihren Planun- 
gen und Maßnahmen beeinflussen, beträgt 2.35 (SD = 0.74), auf die Frage nach 
zu wenig Zeit für die Gutachtenerstellung wurde ein Mittelwert von 2.38 (SD = 
1.21) berechnet. Geringere Zustimmung erhielt die Frage, ob die Durchführung 


84 Likert-Skala: völlig richtig (1) - ziemlich richtig (2) - unentschieden (3) - ziemlich falsch 
(4) - völlig falsch (5). 
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von Intelligenztests leicht falle (MW = 2.65; SD = 0.94) und die Frage, ob zu we- 
nig Zeit für die Anwendung der Tests zur Verfügung stehe (MW = 2.71; SD = 
1.21) 


Abbildung 18. Grad der Zustimmung zu den Aussagen von Q28. 
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5.3.2 Auswertung Testformulare 


Aus sechs Schulämtern bzw. Schulberatungszentren sind Intelligenztest-For- 
mulare zur Verfügung gestellt worden. Hinzu kommen Formulare von fünf 
Einzelpersonen. Die Formulare sollten untersucht werden auf Anzahl gemach- 
ter Fehler, Fehlerarten und Hinweise auf die verwendeten Testverfahren geben. 
Die Auszählung wurde konservativ vorgenommen. Die Aufzeichnungen in den 
Testformularen wurden von den SonderpädagogInnen in der ursprünglichen 
Testsituation nicht in dem Bewusstsein angefertigt, dass diese später ausgewer- 
tet werden würden und nachvollziehbar sein sollten. Es ist möglich, dass Noti- 
zen oder Ergänzungen im Formular irrtümlich als Fehler fehlinterpretiert wer- 
den könnten, obwohl sie im Rahmen eines persönlichen Protokollierungsstils 
legitim wären. Dieses Phänomen ist dem Autor aus vielen Testungen bekannt. 
Ein Beispiel soll dies belegen. Bei der Durchführung des WISC-IV beginnen äl- 
tere Kinder oft nicht mit Item 1, sondern mit einem altersgerechten Anfangs- 
item. Die vorher liegenden Aufgaben werden in der Regel als richtig gelöst 
bewertet, auch wenn sie nicht durchgeführt worden sind. Wären in den Formu- 
laraufzeichnungen Notizen über richtig gelöste Aufgaben vor dem altersent- 
sprechenden Anfangsitem, könnte vermutet werden, dass die Aufgaben vor dem 
Anfangsitem zu Unrecht durchgeführt worden sind. Es wäre allerdings auch 
möglich, dass nach der Testung die eigentlich nicht durchzuführenden Items 
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als korrekt markiert worden sind um die Auszählung zu erleichtern und die 
Aufzeichnungen somit den Anschein erwecken, Items wären durchgeführt wor- 
den, obwohl sie nicht durchgeführt worden sind. 

In die Auszählung der Fehler fließen also nur die Fehler ein, die zweifels- 
ohne welche sind. Es ist möglich, dass Fehler nicht erkannt werden. So wäre es 
bei obigem Beispiel möglich, dass der TesterIn nicht bekannt ist, dass ältere 
Kinder in vielen Subtests nicht mit Item 1 beginnen®®. 

Wie im vorherigen Kapitel soll die deskriptivstatistische Auswertung eine 
Übersicht der Daten vorstellen, während die inferenzstatistische Auswertung 
genauere Analysen durchführt. Die sechs Bezirke werden nicht benannt in 
NRW 1, Brandenburg usw. Damit soll verhindert werden, voreilige Rückschlüs- 
se zu ziehen, denn die sechs teilnehmenden Schulämter sind zufällig gewählt 
und repräsentieren nicht die zu den Schulämtern gehörenden Bundesländer. 
Die sechs Schulämter sind durchnummeriert, die fünf Einzelpersonen werden 
als solche benannt. In die folgenden Darstellungen fließen ausschließlich ausge- 
wertete Fragebögen mit ein (N = 248). Das ReBBZ in Hamburg ist vergleichbar 
einem Schulamt und wird als Schulamt 6 geführt. 


Übersicht der Daten: 

In 39,1 Prozent (97 von 248) der überprüften Formulare konnten keine Fehler 
entdeckt werden, 60,9 Prozent der anderen Formulare waren dementsprechend 
fehlerhaft. In den 151 fehlerhaften Formularen konnten insgesamt 367 Fehler 
erkannt werden, im Durchschnitt also 2.43 Fehler/fehlerhaftem Formular. Mit 
Einbezug der Formulare, für die keine Fehler entdeckt worden sind, wäre der 
Durchschnitt 1.48 Fehler/Formular. In einem Fall konnten elf, in einem ande- 
ren Fall zehn Fehler pro Formular bemerkt werden (siehe Abbildung 19). 

Am häufigsten sind die Rohwerte falsch bestimmt worden bzw. auf Grund 
von Auswertungsfehlern kam es zu falsch ermittelten Rohwerten/Punkten 
(42.51% der Gesamtfehler; siehe Abbildung 20), 21.25 Prozent wendeten die 
Abbruch-, 12.53 Prozent die Umkehrregel falsch an. Das Anfangsitem wurde in 
20.44 Prozent der Fälle falsch bestimmt und eher selten das Alter falsch berech- 
net (3.27%). 


85 Es wäre übrigens auch möglich, dass eine TesterIn bei einem vermeintlich intelligenz- 
geminderten Kind grundsätzlich bei Item 1 die Testung begonnen hat, was als Durchfüh- 
rungsabweichung nicht verboten wäre. Diese Begründung für einen grundsätzlichen Start 
bei Item 1 wäre nachträglich nicht nachvollziehbar. Auch in diesem Fall würde die kon- 
servative Auszählung falsch entdeckte Fehler verhindern. 
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Abbildung 19. Häufigkeit gemachter Fehler (N = 248). 
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Abbildung 20. Fehlerarten (N = 151; Mehrfachfehler möglich). 
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Fehlerhäufigkeiten abhängig von der Dimensionalität der Tests: 

110 überprüfte Formulare sind den eindimensionalen Tests (CFT1/CFT1-R, 
CFT20-R, SON-R 6-40), 85 den mehrdimensionalen Tests zuzuordnen (K- 
ABC, KABC-IL WISC-IV, WPPSI-III*; siehe Abbildung 21). Im Durchschnitt 
wurden bei den eindimensionalen Tests 1.31 Fehler gemacht, bei den mehr- 
dimensionalen Tests im Durchschnitt 1.76 Fehler. Von den 110 eindimensiona- 
len Tests waren 59 fehlerfrei (53,64%), von den 85 mehrdimensionalen 17 feh- 
lerfrei (20%). 

Bei ausschließlicher Betrachtung der fehlerhaften Formulare lagen bei den 
eindimensionalen geprüften Formularen 2.82 Fehler/Test, bei den mehrdimen- 
sionalen 2.21 Fehler/Test vor. Dieses Ergebnis wird an späterer Stelle zu disku- 
tieren sein, da es interessante Rückschlüsse auf die Anwendungspraxis zulässt. 


Abbildung 21. Häufigkeit fehlerhafter bzw. fehlerfreier Formulare im Vergleich nach 
Dimensionalität. 
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Unterschiede zwischen den beteiligten Schulämtern: 

Von den sechs Schulämtern (siehe Abbildung 22) und fünf Einzelpersonen sind 
vor allem die Schulämter 1, 3, 4 und 6 interessant, da diese über 85 Prozent der 
Formulare stellten (Schulamt 1: n = 51; Schulamt 2: n = 18; Schulamt 3: n = 38; 
Schulamt 4: n = 38; Schulamt 5: n = 10; Schulamt 6: n = 88; Einzelpersonen: n = 
5). 


86 SON-R 2%-7 als ebenfalls mehrdimensionaler Test entfällt, da keine Formulare ausge- 
wertet worden sind. 


158 


Abbildung 22. Verteilung der ausgewerteten Formulare. 


Schulamt 1 
21% 
Schulamt 6 

36% 

i Einzelpersonen 

2% 
Schulamt 2 
7% 

Schulamt 5 Schulamt 3 

4% Schulamt 4 15% 

15% 


Aussagekräftigere mehrdimensionale und weniger aussagekräftige eindimensio- 
nale Intelligenztests werden im Rahmen der Erstellung eines sonderpädagogi- 
schen Gutachtens unterschiedlich häufig angewendet. Ohne Einbezug der fünf 
Tests, die von Einzelpersonen durchgeführt worden sind, gibt Abbildung 23 
Hinweise darauf, ob ein Kind mit mehr oder weniger aussagekräftigen Tests be- 
gutachtet wurde. 


Abbildung 23. Vergleich der Anwendungen von mehr- bzw. eindimensionalen Tests in 
unterschiedlichen Schulämtern. 
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Bei den Schulämtern wird deutlich, dass häufiger entweder die eindimensiona- 
len Tests präferiert werden (Schulämter 1, 2, 3 und 5) oder die mehrdimensio- 
nalen (Schulämter 4 und 6). Ein Vergleich zwischen den Schulämtern und der 
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Gesamtzahl gemachter Fehler wäre für sich genommen irreführend. Da die ein- 
dimensionalen Tests auch einfacher durchzuführen sind und weniger Regeln 
beinhalten, die Schulämter aber unterschiedlich verteilt ein- bzw. mehrdimen- 
sionale Tests durchführen, ist ein dezidierter Vergleich unterschieden nach Di- 
mensionalität aufschlussreicher (Tabelle 23). In diesem Zusammenhang ist be- 
sonders interessant, wie oft Tests fehlerfrei durchgeführt und wie viele Fehler 
pro fehlerhaftem Formular im Durchschnitt gemacht worden sind. 

Bei den eindimensionalen Tests reicht die Spannweite von 43.33 bis 75.00 
Prozent richtig durchgeführter Tests, bei den mehrdimensionalen Tests von 0 
bis 50.00 Prozent richtig durchgeführter Tests (Schulamt 1: (N = 45), durch- 
schnittliche Fehler eindimensionale Tests (N = 31): 2.28, durchschnittliche Feh- 
ler mehrdimensionale Tests (N = 14): 2.09; Schulamt 2: (N = 17), durchschnitt- 
liche Fehler eindimensionale Tests (N = 12): 4, durchschnittliche Fehler mehr- 
dimensionale Tests (N = 5): 2.8; Schulamt 3: n = 38, durchschnittliche Fehler 
eindimensionale Tests (N = 32): 4, durchschnittliche Fehler mehrdimensionale 
Tests (N = 6): 5.34; Schulamt 4: (N = 36), durchschnittliche Fehler eindimensio- 
nale Tests (N = 9): 1, durchschnittliche Fehler mehrdimensionale Tests (N = 27): 
2.34; Schulamt 5: (N = 8), durchschnittliche Fehler eindimensionale Tests (N = 8): 
2.28; Schulamt 6: (N = 46), durchschnittliche Fehler eindimensionale Tests (N = 
18): 1.2, durchschnittliche Fehler mehrdimensionale Tests (N = 28) = 1.34). 

Bis auf eine Ausnahme sind mehrdimensionale Tests fehleranfälliger gewe- 
sen. Das hier abweichende Ergebnis im Schulamt 3 wird als Zufallsergebnis an- 
genommen, da lediglich 6 mehrdimensionale Tests durchgeführt worden sind. 

In allen Schulämtern mit Ausnahme des Schulamts 1, die zur Auswertung 
Formulare aus sowohl ein- als auch mehrdimensionalen Tests zur Verfügung 
gestellt haben, wurden bezogen auf die fehlerhaften Formulare durchschnittlich 
mehr Fehler bei den mehrdimensionalen Tests gemacht. Der größte Unter- 
schied ist bei Schulamt 4 (Differenz = 1.34 Fehler), der geringste beim Schul- 
amt 1 festzustellen (Differenz = 0.03 Fehler). Tabelle 23 zeigt in der Übersicht 
die Fehlerhäufigkeiten aller Formulare und unterschieden nach Dimensionali- 
tät und Schulamt. 

Tabelle 24 zeigt den Vergleich der durchschnittlichen Gesamtfehler unter 
Einbezug aller Formulare (also auch der fehlerfreien) für die Schulämter mit ei- 
ner höheren Fallzahl. Bezogen auf alle überprüften Formulare kann z.B. für das 
Schulamt 6 festgestellt werden, dass weniger als ein Fehler sowohl bei den ein- 
als auch bei den mehrdimensionalen Tests gefunden worden sind”. 


87 Interessant könnte im abschließenden Kapitel ein Vergleich zwischen dem Konzept des 
Schulamts 6 (ein ReBBZ aus Hamburg) und den Konzepten der anderen Schulämter mit 
deutlich mehr festgestellten Fehlern sein. 
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Tabelle 23. Darstellung der Fehlerhäufigkeiten aller Formulare, unterschieden nach 
Dimensionalität und Schulamt. 


n fehlerfreie Anzahl Gesamt- Ø fehlerhafte 
Formulare Fehler durchschnitt Formulare 
Schulamt1 Gesamt 45 15(34.10%) 66 1.47 2.20 
eindimensional 31 13(43.33%) 41 1.32 2.28 
mehrdimensional 14 2(14.29%) 25 1.79 2.09 
Schulamt2 Gesamt 17 7(41.18% 34 2.00 3.40 
eindimensional 12 7(58.34% 20 1.67 4.00 
mehrdimensional 5 (0) 14 2.80 2.80 
Schulamt3 Gesamt 38 17 (44.74%) 88 2.32 4.20 
eindimensional 32 14 (43.75%) 72 2.25 4.00 
mehrdimensional 6 3(50.00% 16 2.67 5.34 
Schulamt4 Gesamt 36 7(19.44% 67 1.86 2.31 
eindimensional 9 6 (66.67 %) 3 0.34 1.00 
mehrdimensional 27 1(3.70%) 64 2.37 2.34 
Schulamt5 Gesamt 8 6 (75.00 %) 2 0.25 1.00 
eindimensional 8 6 (75.00 %) 2 0.25 1.00 
mehrdimensional (0) 
Schulamt6 Gesamt 46 23(50.00%) 30 0.65 1.30 
eindimensional 18 13(72.22%) 6 0.34 1.20 
mehrdimensional 28 10(35.71%) 24 0.86 1.34 


Anmerkungen. Fehlerfreie Formulare gibt die Anzahl von Formularen ohne gefundene Fehler an. Gesamt- 
durchschnitt gibt den Durchschnitt aller Fehler im Verhältnis zu allen Formularen an. Ø fehlerhafte Formu- 
lare = Durchschnitt der Fehler im Verhältnis zu allen fehlerhaften Formularen. 


Tabelle 24. Vergleich fehlerhafter Formulare, unterschieden nach Dimensionalität 
für Schulämter mit einer höheren Fallzahl. 


Gesamt auswertbare eindimensional mehrdimensional 

Formulare 

n Ø Fehler SD n Ø Fehler SD n Ø Fehler SD 
Schulamt 1 51 1.43 1.65 31 1.32 1.66 14 1.79 1.72 
Schulamt 3 38 2.32 3.02 32 2.25 2.81 6 2.67 4.27 
Schulamt 4 38 1.76 1.62 9 0.33 0.50 27 2.37 1.52 
Schulamt 6 88 0.97 1.43 18 0.33 0.59 28 0.86 0.80 


Erläuterungen. Gesamt auswertbare Formulare bezieht auch Formulare mit ein, die nicht eindeutig mehr- 
bzw. eindimensionalen Tests zuzuordnen sind. SD = Standardabweichung. Ø = Durchschnitt. 
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Der größte Unterschied zwischen der durchschnittlichen Fehlerhäufigkeit zwi- 
schen ein- und mehrdimensionalen Tests liegt beim Schulamt 4 vor (Durch- 
schnitt Fehler eindimensionale Tests = 0.33, SD = 0.50; bei mehrdimensionalen 
Tests = 2.37, SD = 1.52) 

Es bietet sich an dieser Stelle ein kurzer Blick auf signifikante Unterschiede 
bezüglich der Fehlerhäufigkeit zwischen den Schulämtern an, auch wenn keine 
Hypothesen zu dieser Frage im nächsten Kapitel geprüft werden sollen. Es fällt 
jedoch auf, dass z.B. Schulamt 6 positiv hervorsticht. 

Bei den eindimensionalen Tests gibt es signifikante Unterschiede zwischen 
den Schulämtern sowohl bei den eindimensionalen (N = 90), (H(3) = 9.36, p = 
.025)® als auch bei den mehrdimensionalen Tests (N = 75), (H(3) = 17.05, p = 
.001). 

Bereits in der deskriptiven Auswertung sticht Schulamt 6 sowohl bei den 
ein- als auch bei den mehrdimensionalen Tests positiv hervor, Schulamt 4 zu- 
mindest bei den eindimensionalen Tests. 

Verglichen mit den anderen Schulämtern macht Schulamt 6 signifikant we- 
niger Fehler sowohl bei den eindimensionalen (U(18, 72) = 431, z = -2.37, p = 
.018)® als auch bei den mehrdimensionalen Tests (U(28, 47) = 330.5, z = -3.71, 
p<.001). 

Bei Schulamt 4 konnte hingegen bei den eindimensionalen Tests im Ver- 
gleich mit den anderen Schulämtern bezüglich der Anzahl der Gesamtfehler 
keine Signifikanz festgestellt werden (U(9, 80) = 265.5, z = -1.40, p = .163). 


Fehleranfälligkeiten der Tests: 

Tabelle 25 zeigt die Häufigkeit und die Fehlerarten, unterschieden nach Test- 
verfahren. Bei den Gesamtfehlern beträgt die durchschnittliche Fehlerzahl 1.48 
Fehler. Bei den Tests mit einer mindestens zweistelligen Fallzahl liegen über 
dem Durchschnitt die IDS (MW = 1.79), der WISC-IV (MW = 1.75) und der 
SON-R 6-40 (MW = 1.55). Unter dem Durschnitt liegen die KABC-U (MW = 
1.21) und der WNV (MW = 0.9). 

Unterschieden nach Fehlerart fällt bei den falsch gezählten Punkten bzw. 
der falschen Auswertung negativ die IDS (MW = 1.73 Fehler/Test; Gesamt- 
durchschnitt = 0.63 Fehler/Test), positiv die KABC-I (MW = 0.53) auf. Bei den 
Abbruchregeln sticht negativ der WISC-IV (MW = 0.6, Gesamtdurchschnitt = 
0.31), bei den Umkehrregeln ebenfalls negativ der WISC-IV hervor (MW = 
0.57; Gesamtdurchschnitt = 0.19). 


88 Gruppenvergleich der vier Schulämter mit höheren Fallzahlen mit dem Kruskal-Wallis- 
Test, asymptotische Signifikanz, zweiseitig. 

89 Mann-Whitney-U-Test, asymptotische Signifikanz, zweiseitig, Vergleich der vier Schul- 
ämter mit einer höheren Fallzahl. 
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Bei dem falsch bestimmten Anfangsitem sind bei dem SON-R 6-40 annä- 
hernd viermal mehr Fehler (MW = 1.03) als im Gesamtdurchschnitt (MW = 
0.28) vorhanden. 


Tabelle 25. Anzahl Fehler und durchschnittliche Fehlerzahl, unterschieden nach Feh- 
lerart. 


N z E £ 8 # 3 Æ g€ z 
u T : E v iE o0 iE © = 
2 E z < $ = © fz pni E 
E o © O S a] fa [21 o [2] 
€ D fra {7} a] D < D D D 
s $5 5y $ 2 $ Ēł 5 55 § 
fi 5 3 5 3 5 £ 5 € 5 
© Q < Q < Q D Q < a 
CFT2O 9 4 0.44 4 0.44 
WNV 31 28 0.9 9 0.29 12 0.39 3 0.1 
CFT1 36 39 1.08 37 1.03 
KABC-II 19 23 1.21 10 0.53 7 0.37 5 0.26 1 0.05 
SON-R 65 101 1.55 30 0.46 4 0.06 67 1.03 


6-40 
WISC-IV 60 105 1.75 29 0.48 36 0.6 34 0.57 1 0.02 


IDS 19 34 1.79 33 1.73 

WPPSI 4 11 2.75 3 0.75 6 1.5 1 0.25 
SON-R 3 11 3.67 1 0.33 5 1.67 

51-17 

K-ABC 2 11 5.5 8 4 3 1.5 


Gesamt 248 367 1.48 156 0.63 78 0.31 46 0.19 69 0.28 


Anmerkung. Add./Bew. = Addition/Bewertung. 


Mögliche Auswirkungen fehlerhafter Auswertungen auf die Testergebnisse: 
Ein Fehler muss nicht zwangsläufig zu veränderten Ergebnissen führen. Einige 
Beispiele sollen dies belegen: 


e Ein falsch berechnetes Testalter ist ohne Auswirkung, wenn die Normtabelle 
sich nicht ändert. Ist ein Kind am Testtag 8;3 Jahre alt und umfasst eine 
Normtabelle den Altersbereich 8;3-8;5 Jahre, würde die richtige Normtabel- 
le bei einem falsch berechneten Alter von 8;5 Jahren dennoch genutzt wer- 
den. 

e Würden Items unter Missachtung der Abbruchregel irrtümlich durchge- 
führt werden, das Kind erzielte aber keine Punkte bei den zu viel durchge- 
führten Aufgaben, wäre dies ohne Auswirkungen. 

e Würden mehrere Rohwerte zu dem Bereich eines standardisierten Werts 
gehören (z.B. die Rohwerte 44-48 gehörten zu dem standardisierten Wert 
Wertpunkt 9), würde dies nicht zu einer Verfälschung führen, würde der 
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falsch addierte Rohwert zu dem Rohwert-Bereich gehören (z.B. statt korrekt 
Rohwert 45 den Rohwert 48 falsch berechnet). 


Es wird unterschieden zwischen möglichen Auswirkungen und keinen Auswir- 
kungen auf die Testergebnisse. In einigen Fällen kann sicher ausgeschlossen 
werden, dass die gefundenen Fehler zu einer Veränderung der Testergebnisse 
führen, in allen anderen Fällen wäre dies möglich. Die Formulierung mögliche 
Auswirkung ist bewusst vorsichtig gewählt und auch hier wird konservativ 
vorgegangen, um SonderpädagogInnen nicht zu Unrecht Testergebnisse verfäl- 
schende Mängel bei der Auswertung zu attestieren. 

Für 151 fehlerhafte Fragebögen konnten mögliche Auswirkungen bestimmt 
werden (N = 248). Für 32 (21.2%) konnten Auswirkungen ausgeschlossen wer- 
den, bei 119 (78.8%) sind Auswirkungen möglich. Bezogen auf die Gesamtzahl 
würde dies bedeuten, dass bei 248 geprüften Testformularen 48 Prozent Aus- 
wirkungen auf die Ergebnisse durch eine fehlerhafte Anwendung möglich sind. 

Da ausschließlich Testformulare aus Testdurchführungen in die Auswer- 
tung dieser Arbeit einfließen, die im Rahmen eines Gutachtens zur Feststellung 
sonderpädagogischen Förderbedarfs angefertigt worden sind, können durch 
Auswertungs- bzw. Durchführungsfehler resultierende Auswirkungen auf die 
Testergebnisse auch Auswirkungen auf die aus den Testergebnissen abgeleite- 
ten Schlussfolgerungen für die Fragestellungen der Begutachtung resultieren. 

Einige Beispiele von nicht möglichen, sondern tatsächlichen Auswirkungen 
der Fehler auf Testergebnisse bzw. besonders markante Fehler sollen qualitativ 
skizziert werden: 


e Bezirk 1, Fall 23, WISC-IV, Matrizen Test: Wertpunkt = 2 falsch, Wertpunkt = 
6 richtig”. Der Matrizen Test misst vor allem die fluide Intelligenz (analy- 
tisch, abstrakt logisches Denken), einem Kernbereich des Generalfaktors. 
Ein Wertpunkt von 2 würde umgerechnet IQ 60 bedeuten, der richtige 
Wertpunkt 6 umgerechnet IQ 80°. Der falsche Wert könnte als ein Hinweis 
auf den Unterstützungsbedarf geistige Entwicklung interpretiert werden, der 
korrekte Wert ein Hinweis auf den Unterstützungsbedarf Lernen. Die fluide 


90 Der standardisierte Wert bzw. die Skalierung Wertpunkt hat eine Mitte = 10 und eine 
Standardabweichung = 3, somit einen Normbereich von Wertpunkt (WP) 7-13. 

91 Mit dem standardisierten Wert Intelligenz-Quotient (IQ) werden in der Regel Gesamt- 
ergebnisse angezeigt. Die Umrechnung eines Subtestergebnisses in IQ ist problematisch, 
da mit dem IQ die allgemeine Intelligenz assoziiert wird, ihm also eine hohe Bedeutung 
beigemessen wird. Diese Umrechnung ist zusätzlich problematisch, da ein Gesamt-IQ sel- 
ten der Durchschnitt der Subtestergebnisse darstellt und niedrige Subtestergebnisse meist 
zu Gesamtergebnissen führen, die noch niedriger sind als der Durchschnitt der Teilergeb- 
nisse. Die Umrechnung des standardisierten Werts Wertpunkt in den standardisierten 
Wert IQ dient in diesem Abschnitt der Veranschaulichung. 
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Intelligenz ist einer der wichtigsten und bestuntersuchtesten Bereiche in der 
Intelligenzforschung und wird z.B. in den Tests der CFT-Reihe nachvoll- 
ziehbar Grundintelligenz genannt, 

Bezirk 1, Fall 36, CFT1-R Kurzform, Gesamtwert: T-Wert” 32 statt T-Wert 
29, 

Bezirk 3, Fall 18, SON-R 6-40, Gesamtwert: mindestens IQ = 99 statt IQ = 
90%, 

Bezirk 3, Fall 21, SON-R 6-40, Zeichenmuster: Standardwert”* = 3 statt Stan- 
dardwert = 6, 

Bezirk 3, Fall 27, CFT1-R: fünf der sechs Subtests sind falsch durchgeführt 
bzw. ausgewertet worden; das Testalter ist um zwei Monate falsch berechnet 
worden, 

Bezirk 3, Fall 39, K-ABC: von 11 Subtests sind alle 11 falsch durchgeführt 
worden, 

Bezirk 4, Fall 1, WISC-IV, Wortschatz: Wertpunkt = 6 statt Wertpunkt = 8 
Bezirk 4, Fall 11, WISC-IV: Symbolsuche mit Aufgaben für sechs- bis sie- 
benjährige Kinder durchgeführt, obwohl das Kind bereits 9 Jahre alt war. 
Der falsch ermittelte Wert von Wertpunkt 15 (Durchschnitt andere Tests: 
WP 7,9) beeinflusst Gesamt-IQ (falscher Wert: IQ 87) maßgeblich, 

Bezirk 4, Fall 19, WISC-IV, Zahlensymboltest: Wertpunkt = 5 statt Wert- 
punkt = 9 (entspricht IQ = 75 statt IQ = 95), 

Bezirk 4, Fall 22, WISC-IV, Symbolsuche: Wertpunkt = 11 statt Wertpunkt = 
7 (entspricht umgerechnet in IQ = 105 statt IQ = 85), 

Bezirk 6, Fall 7, WISC-IV, Wortschatz: Wertpunkt = 5 statt Wertpunkt = 2, 
Bezirk 6, Fall 18, WNV, Matrizen-Test: T-Wert 43 statt T-Wert = 28 (ent- 
spricht IQ = 90 statt IQ = 67), 

Bezirk 6, Fall 20, WNV, Zahlen-Symbol-Test: T-Wert = 49 statt T-Wert = 
61, 

Bezirk 6, Fall 21, WNV, Bilder-Ordnen: T-Wert = 49 statt T-Wert = 40, 
Bezirk 6, Fall 25, WNV: Testalter um ein Jahr verrechnet (10;10 Jahre statt 
9;10 Jahre), dadurch Abgleich der Rohwerte mit falscher Normtabelle, 
Bezirk 6, Fall 47, KABC-I, Dreiecke: Skalenwert” = 6 statt Skalenwert = 1, 
dies entspricht einem umgerechneten IQ von 80 statt IQ 55. 


92 


93 
94 


Der standardisierte Wert bzw. die Skalierung T-Wert hat eine Mitte = 50 und eine Stan- 
dardabweichung = 10, somit einen Normbereich von T-Wert 40-60. 

Tatsächlich ist eine noch höhere Abweichung möglich. 

Der standardisierte Wert bzw. die Skalierung Standardwert hat für diesen Test eine Mit- 
te = 10 und eine Standardabweichung = 3, somit einen Normbereich von Standardwert 
7-13. 
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5.4 Inferenzstatistische Auswertungen 


In diesem Kapitel werden die Ergebnisse aus den Prüfungen der Forschungs- 
fragen vorgestellt. 

Für die Hypothesenprüfungen sind die weiter oben beschriebenen For- 
schungsfragen in falsifizierbare Hypothesen überführt worden. Das Signifikanz- 
niveau wurde auf .05 festgelegt, wenn nicht anders angegeben sind die Hypo- 
thesen zweiseitig getestet worden. Die Gewichtungen sind angepasst, um eine 
Kontrollgruppe einbeziehen zu können (siehe Kapitel 5.1), N = 1037 für die ers- 
ten acht Forschungsfragen. 

Zur Prüfung von Unterschieden, Zusammenhängen, auf Mitte und auf 
Streuung sind mit Hilfe der Statistik-Software SPSS 24 verschiedene statistische 
Verfahren genutzt worden, die in einer kurzen Übersicht dargestellt werden. 

Die Qualität der Daten bestimmte die Auswahl der Verfahren. Konnten bei 
den Unterschiedshypothesen Annahmen über die Verteilung der Daten getrof- 
fen werden, sind parametrische, sonst nichtparametrische Verfahren gewählt 
worden. Bei den Zusammenhangsanalysen wurde bei intervallskalierten Merk- 
malen die Pearson-Korrelation und bei ordinalskalierten Merkmalen die Spear- 
man-Korrelation gewählt (Riepl, 2013, o.S.). Eine ausführlichere Auseinan- 
dersetzung mit Cronbachs Alpha wurde in Kapitel 4.2.3 (Konstruktion eines 
Schwierigkeiten-Index) vorgenommen. Wenn nicht anders angegeben, wurde 
zweiseitig geprüft. 

Die für die inferenzstatistischen Berechnungen genutzten Verfahren sind 
(alphabetisch geordnet): 


e  Bonferroni-Korrektur: Zur Vermeidung von Fehlern 1. Art wird diese Kor- 
rektur vielfach angewendet. Ansonsten wäre anzunehmen, dass bei dem 
grundsätzlich gewähltem Signifikanzniveau von 5 Prozent bei 100 Tests im- 
merhin in fünf Fällen die Nullhypothese mit einem signifikanten Ergebnis 
zu Unrecht abgelehnt werden würde (Hemmerich, 2015b, o. S.). Der Nach- 
teil dieses sehr konservativen Verfahrens ist die Erhöhung der Wahrschein- 
lichkeit falsch negativer Ergebnisse (ebd., o. S.). Um sicherzustellen, dass aus 
den Ergebnissen abgeleitete Empfehlungen gegenüber Institutionen auf ei- 
ner soliden Datenbasis stehen, wird dieser Nachteil bewusst in Kauf genom- 
men. Somit wird also auch in Kauf genommen, dass weniger der erstellten 
Alternativhypothesen zu signifikanten Ergebnissen führen. 

e Chi-Quadrat-Test: Die mit Hilfe von Kreuztabellen ermittelten Zusammen- 
hänge zwischen kategorialen Variablen können mit dem Chi-Quadrat-Test 


95 Der standardisierte Wert bzw. die Skalierung Skalenwert hat eine Mitte = 10 und eine 
Standardabweichung = 3, somit einen Normbereich von Skalenwert 7-13. 
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darauf überprüft werden, ob die Zusammenhänge auch in der Grundgesamt- 
heit bestehen (Brosius, 2017, S. 219). Angewendet wird dieser Test ab einer 
erwarteten Häufigkeit von größer 5, was bei den hohen Fallzahlen der Stu- 
die kein Problem darstellte. Es ist allerdings auch möglich, dass eine sehr 
große Fallzahl zu signifikanten Ergebnissen führen kann, obwohl die Unter- 
schiede eher klein sind. In dieser Arbeit wird der Chi-Quadrat-Test nach 
Pearson verwendet. 

e Einfaktorielle Varianzanalyse (ANOVA”): Zur Vermeidung von Alphafeh- 
ler-Kumulierungen werden beim Vergleich mehrerer Gruppen (z.B. Bun- 
desländern) nicht mit Hilfe von t-Tests die Mittelwerte von jeweils zwei 
Stichproben aus dem Pool der Gruppen berechnet, sondern beim Vergleich 
mehrerer Gruppen Varianzanalysen durchgeführt (Raab-Steiner & Benesch, 
2015, S. 158). Dies vermeidet zudem die Gefahr einer verminderten Power 
(ebd., S. 158). Die einfaktorielle Varianzanalyse wurde genutzt beim Vorlie- 
gen von stetigen Merkmalen und kam lediglich zur Prüfung der Hypothese 
4.6 zum Einsatz. 

e Friedman-Test: Diese einfaktorielle Varianzanalyse mit Meßwiederholung 
zur Prüfung von Unterschieden erwartet Ordinaldaten bei abhängigen Stich- 
proben (Pospeschill, 1996, S. 240) und ermittelt Ränge bzw. Rangreihen. 
Der Friedman-Test wird verwendet, wenn mehr als zwei Gruppen vorhan- 
den sind. Verkürzt prüft der Friedman-Test, ob sich die zentralen Tenden- 
zen einer Variable zwischen mehreren abhängigen Gruppen bzw. Messzeit- 
punkten unterscheiden (Universität Zürich, 2018, o. S.). 

e Kruskal-Wallis-Test: Bei diesem Test handelt es sich wie beim Friedman- 
Test ebenfalls um eine einfaktorielle Varianzanalyse für mehr als zwei Grup- 
pen und im Gegensatz zum Friedman-Test ohne Meßwiederholung (Pospe- 
schill, 1996, S. 237). Ermittelt werden Unterschiede von zentralen Tendenzen. 
Das Pendant für Untersuchungen von zwei Gruppen ist der Mann-Whit- 
ney-U-Test. 

e Levene-Test: Dieser Signifikanztest misst im Rahmen dieser Arbeit bei der 
Anwendung anderer Testverfahren (z.B. t-Test für unabhängige Stichpro- 
ben), ob eine Varianzhomogenität/-gleichheit vorliegt. Davon ist abhängig, 
welcher Test in Folge für die Signifikanzprüfungen genutzt werden muss. 
Bei einer einfaktoriellen Varianzanalyse (ANOVA) wird z.B. bei vorliegen- 
der Varianzhomogenität die berechneten Signifikanzangaben des Tukey- 
Tests (post-hoc Verfahren, ähnelt dem t-Test), beim t-Test für unabhängige 
Stichproben würden bei einer Varianzungleichheit die Angaben des Welch- 
Tests genutzt werden. 


96 ANOVA = Analysis of Variances. 


167 


Mann-Whitney-U-Test: Dieser Test wird genutzt, wenn die Voraussetzun- 
gen wie bei dem Kruskal-Wallis-Test vorliegen (mindestens Ordinaldaten, 
zwei unabhängige Stichproben), jedoch für die Unterschiedsprüfung bei 
zwei Gruppen. Eine Normalverteilung ist nicht notwendig (Raab-Steiner & 
Benesch, 2015, S. 130). Im Rahmen dieser Arbeit wurde der Mann-Whit- 
ney-U-Test häufig genutzt für Unterschiedsprüfungen zwischen der Ver- 
suchs- und der Kontrollgruppe. 

Korrelationstests: Im Zusammenhang dieser Studie wurden Korrelations- 
koeffizienten nach Pearson (bei intervallskalierten Merkmalen) bzw. nach 
Spearman (bei ordinalskalierten Merkmalen; Variablen müssen nicht nor- 
malverteilt sein) berechnet. Ziel ist die Beschreibung von Zusammenhängen 
zwischen zwei Variablen. 

t-Test: Bei der Annahme einer Normalverteilung und dem Vorliegen von 
metrischen Daten kommt der t-Test für unabhängige Stichproben in Frage, 
um Mittelwertsvergleiche vornehmen zu können. Bei der Anwendung des 
t-Tests ist die Verwendung der Ergebnisse abhängig von der Prüfung der 
Varianzhomogenität (siehe Levene-Test). 

Wilcoxon-Test: Dieser Test vergleicht zwei abhängige Stichproben auf ihre 
zentrale Tendenz (Bortz, 1995, S. 144). Im Gegensatz zum t-Test für ver- 
bundene Stichproben benötigt der Wilcoxon-Test keine Normalverteilung 
und Ordinaldaten genügen als Voraussetzung. 


5.4.1 Empfundene Aussagekraft der Tests 


Hypothese 1 


HO: 


Hl: 


Die empfundene Aussagekraft eindimensionaler Tests unterscheidet sich 
nicht von der empfundenen Aussagekraft mehrdimensionaler Tests. 

Die empfundene Aussagekraft eindimensionaler Tests unterscheidet sich 
von der empfundenen Aussagekraft mehrdimensionaler Tests. 


Zur Prüfung der Hypothese wurde der Wilcoxon-Test gewählt. Der t-Test für 
verbundene Stichproben konnte ausgeschlossen werden, da dieser eine Nor- 
malverteilung für die Kategorie Dimensionalität voraussetzen würde, was nicht 


der 


T(9 


Fall ist. 
Nach der Anwendung des Wilcoxon Tests ist das Ergebnis eindeutig mit 
77) = 30398, z = —-19.989, p < .001. Grundlage war die Einordnung der Tests 


in Dimensionalität (eindimensional und mehrdimensional) und die Frage Q5 
(Testergebnisse aus folgenden Tests sind aussagekräftig (...) (fünfstufige Rating- 
skala: außerordentlich (1), ziemlich (2), mittelmäßig (3), kaum (4), gar nicht (5)). 
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Tabelle 26. Vergleich Aussagekraft (Q5) und Dimensionalität. 


N Mittlerer Rang 
Negative Ränge 680° 431.19 
Positive Ränge 124° 245.15 
Bindungen 173° 
Gesamt 977 


Anmerkungen. a.: mehrdimensional < eindimensional. b.: mehrdimensional > eindimensional. c.: mehr- 
dimensional = eindimensional. Ein höherer mittlerer Rang bedeutet eine geringer eingeschätzte Aussage- 
kraft. 


Es liegt ein signifikanter Unterschied vor. Die Nullhypothese wird verworfen und 
die Alternativhypothese angenommen. Die Aussagekraft eines Tests hängt von 
der Dimensionalität ab, denn der ermittelte signifikant höhere mittlere Rang bei 
den negativen Rängen bedeutet, dass eindimensionalen Tests eine geringere Aus- 
sagekraft zugeschrieben wird als mehrdimensionalen Tests (siehe Tabelle 26). 

Die Auswahl der ProbandInnen resultiert überwiegend aus Anfragen an 
ehemalige TeilnehmerInnen von Diagnostikseminaren. Verzerrungen aus einer 
selektiven Stichprobe sollen durch den Vergleich mit einer Kontrollgruppe um- 
gangen werden. Diese besteht aus ProbandInnen, die niemals an einer außer- 
universitären Fortbildung zur Testdiagnostik teilgenommen haben und ent- 
sprechend weder beeinflusst sind von der Person, die die Fortbildung durch- 
geführt hat (in der Regel der Autor dieser Arbeit) noch von den Inhalten der 
Fortbildung oder den Motiven für die Teilnahme an der Fortbildung (z.B. Ver- 
tiefung in die KABC-II). 


Tabelle 27. Prüfung Aussagekraft (Q5) und Dimensionalität, getrennt nach Kontroll- 
und Versuchsgruppe. 


Versuchsgruppe Kontrollgruppe 

N Rang N Rang 
Negative Ränge 629° 397.87 51° 33.85 
Positive Ränge 112° 220.09 12° 24.13 
Bindungen 155° 18° 
Gesamt 896 81 


Anmerkungen. a.: mehrdimensional < eindimensional. b.: mehrdimensional > eindimensional. c.: mehr- 
dimensional = eindimensional. Ein höherer mittlerer Rang bedeutet eine geringer eingeschätzte Aussage- 
kraft. 


Getrennt nach Kontroll- und Versuchsgruppe (Vergleich mittlere Ränge siehe 
Tabelle 27) und geprüft mit dem Wilcoxon-Test bleiben die Ergebnisse signifi- 
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kant mit jeweils p < .001 (Versuchsgruppe T(896) = 2465.5, z = -19.394, p < 
.001; Kontrollgruppe T(81) = 289.5, z = -4.925, p < .001). 


5.4.2 Unterschiede zwischen Komplexität und Anwendungshäufigkeit 


Hypothese 2 

H0: Es besteht kein Unterschied in der Anwendungshäufigkeit zwischen ver- 
schieden komplexen Intelligenztests. 

Hl: Es besteht ein Unterschied in der Anwendungshäufigkeit zwischen ver- 
schieden komplexen Intelligenztests. 


Entsprechend der Anzahl der Regeln wurde die Komplexität der Tests be- 
stimmt: je mehr Regeln, desto komplexer in der Anwendung. Daraus resultie- 
ren fünf Gruppen: 


wenig komplex: CFTI/CFTL-R, CFT20-R 
leicht komplex: SON-R 6-40, IDS” 
komplex: K-ABC, WNV 

sehr komplex: WISC-IV, WPPSI-II 


außerordentlich komplex: KABC-I 


Verglichen wurden diese 5 Kategorien mit Q8 (Wenn ich teste, nehme ich fol- 
gende Tests (...); fünfstufige Ratingskala: immer (1), oft (2), gelegentlich (3), sel- 
ten (4), nie (5)). Zur Prüfung der Hypothese wurde der Friedman-Test (nicht- 
parametrische ANOVA) nach Rang genutzt. Da die Kategorie außerordentlich 
komplex aus nur einem Item besteht, kann die parametrische ANOVA für 
Messwiederholungen nicht verwendet werden, da stetige Zielgrößen verwendet 
werden müssten. Das Ergebnis ist eindeutig mit F(4) = 293.98, p < .001. 

Es gibt einen signifikanten Zusammenhang zwischen der Komplexität und 
der Anwendungshäufigkeit. Zur inhaltlichen Beurteilung sollen die genaueren 
Zusammenhänge zwischen den fünf Kategorien mit post-hoc Verfahren geprüft 
werden. 

Am häufigsten insgesamt werden Tests aus den Gruppen wenig komplex 
und außerordentlich komplex angewendet. Doch im Gegensatz zu den anderen 
paarweisen Vergleichen (siehe Tabelle 28) gibt es hier keinen signifikanten Un- 
terschied im Vergleich bezüglich der Anwendungshäufigkeit. Dies bedeutet, 
dass weder CFT1-R bzw. CFT20-R (wenig komplex) seltener oder häufiger an- 
gewendet werden wie KABC-II (außerordentlich komplex). 


97 Nur Intelligenzteil. 
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Tabelle 28. Unterschiede zwischen Komplexität und Anwendungshäufigkeit der Tests 
(08/Komplexität). 


Teststatistik Sig. korr. Sig. 
wenig komplex — außerordentlich komplex -0.062 .510 1.000 
wenig komplex - leicht komplex -0.452 .000 .000 
wenig komplex — sehr komplex -0.780 .000 .000 
wenig komplex — komplex -1.206 .000 .000 
außerordentlich komplex - leicht komplex 0.390 .000 .000 
außerordentlich komplex — sehr komplex 0.718 .000 .000 
außerordentlich komplex -— komplex 1.144 .000 .000 
leicht komplex — sehr komplex -0.328 .000 .005 
leicht komplex — komplex -0.754 .000 .000 
sehr komplex — komplex 0.426 .000 .000 


Anmerkungen. Signifikanzwerte wurden von der Bonferroni-Korrektur für mehrere Tests angepasst. Sig. = 
Signifikanz. korr. = korrigierte. 


Leicht komplexe Tests (mittlerer Rang = 2,95) werden signifikant (p = .005) 
häufiger durchgeführt als sehr komplexe Tests (mittlerer Rang = 3,28). Bei allen 
anderen paarweisen Vergleichen liegt ein signifikanter Unterschied von p < 
.001 vor (mittlere Ränge siehe Tabelle 29): wenig komplexe Tests werden häufi- 
ger als leicht und sehr komplexe und komplexe Tests angewendet. Bis auf die 
KABC-I werden die Tests mit den wenigsten Regeln (CFT-Reihe) gegenüber 
den anderen Tests bevorzugt. Die KABC-I, die der einzige Test des Labels au- 
ßerordentlich komplex ist, wird häufiger als leicht und sehr komplexe und kom- 
plexe Tests durchgeführt, leicht komplexe Tests häufiger als komplexe und sehr 
komplexe häufiger als komplexe Tests. Letzteres Ergebnis und die Präferenz für 
die KABC-II geben einen Hinweis, dass nicht grundsätzlich die vermeintlich 
leicht durchzuführenden Tests bevorzugt werden. 


Tabelle 29. Mittlere Ränge Vergleich Q8 und Komplexität für Gesamt-, Kontroll- und 
Versuchsgruppe. 


mittlerer Rang mittlerer Rang mittlerer Rang 
Gesamt Versuchsgruppe Kontrollgruppe 
wenig komplex 2.50 (1) 2.51 (1) 2.35 (1) 
leicht komplex 2.95 (3) 2.95 (3) 2.96 (3) 
komplex 3.71(5) 3.72 (5) 3.52 (5) 
sehr komplex 3.28 (4) 3.29 (4) 3.21 (4) 
außerordentlich komplex 2.56 (2) 2.53 (2) 2.95 (2) 


Anmerkung. In Klammern die Reihenfolge. 
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Für die Frage, ob ein Unterschied in der Anwendungshäufigkeit bei verschie- 
den komplexen Intelligenztests vorliegt, scheint eine Prüfung getrennt nach 
Kontroll- und Versuchsgruppe sinnvoll. 

Nach Anwendung der nichtparametrischen Varianzanalyse nach Friedman 
bei verbundenen Stichproben konnten signifikante Unterschiede sowohl für die 
Kontrollgruppe (F(4) = 15.81, p = .003), wie für die Versuchsgruppe (F(4) = 
282.81, p < .001) festgestellt werden. Für beide Teilgruppen besteht ein Zusam- 
menhang zwischen Komplexität und Anwendung der Tests. Die Darstellung 
der mittleren Ränge verdeutlicht, dass die Reihenfolge in allen Gruppen gleich 
ist: am häufigsten werden die wenig komplexen (CFTU/CFT1-R/CFT20-R) und 
der außerordentlich komplexe (= KABC-U) Test durchgeführt. Ob diese Ergeb- 
nisse signifikant sind, verdeutlich die vergleichende Tabelle 30. 

Obwohl die mittleren Ränge in der Reihenfolge gleich sind und nicht von 
wenig komplex zu außerordentlich komplex verlaufen, praktisch von leicht zu 
schwer in der Anwendung, sind die Unterschiede zwischen den fünf Kategorien 
beim Gegenüberstellen zwischen der Kontroll- und Versuchsgruppe different. 
Es gibt marginale Unterschiede. In der Gesamtgruppe werden leicht komplexe 
gegenüber den sehr komplexen Tests bevorzugt (p = .005), bei der Versuchs- 
gruppe beträgt p = .006. Alle anderen Ergebnisse ähneln” den oben beschriebe- 
nen Ergebnissen der Gesamtgruppe. 

In der Gegenüberstellung der drei Gruppen (Gesamtstichprobe, Kontroll- 
und Versuchsgruppe, siehe Tabelle 30) wird ersichtlich, dass es deutliche Un- 
terschiede zwischen der Versuchs-” und Kontrollgruppe gibt. 

Unter Berücksichtigung der Bonferroni-Korrektur kann für die Kontroll- 
gruppe festgestellt werden, dass lediglich die wenig komplexen (mittlerer Rang = 
2.35) gegenüber den komplexen (mittlerer Rang = 3.52) Tests bevorzugt werden 
(p = .008). Unter Vernachlässigung der konservativen (Hemmerich, 20156) 
Bonferroni-Korrektur, die zwar falsch positive Ergebnisse verhindern hilft (Feh- 
ler 1. Art), aber auch die Gefahr falsch negativer Ergebnisse erhöht (Fehler 
2. Art), ergeben sich folgende Ergebnisse: wenig komplexe Tests werden signifi- 
kant häufiger durchgeführt als sehr komplexe (p = .015) und komplexe (p = .001) 
Tests und tendenziell häufiger als die außerordentlich komplexe KABC-I (p = 
.087) und leicht komplexe (p = .081) Tests. Dies bedeutet, dass unter Vernach- 
lässigung der Bonferroni-Korrektur in der Kontrollgruppe die Verfahren mit 
den wenigsten Anwendungsregeln und somit leichtesten Tests signifikant bzw. 
tendenziell signifikant häufiger angewendet werden als die Tests mit mehr An- 
wendungsregeln und somit vermeintlich schwereren Tests. 


98 Die auf den ersten Blick identischen Ergebnisse können sich in Nachkommastellen unter- 
scheiden, so dass scheinbar gleiche Ergebnisse nicht angenommen werden. 
99 Und somit praktisch mit der Gesamtgruppe. 
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Tabelle 30. Unterschiede zwischen Anwendungshäufigkeiten und verschieden komple- 
xen Tests (Q8/Komplexität), unterschieden nach Gesamt-, Vergleichs- und Kontroll- 
gruppe. 


Gesamtgruppe Versuchsgruppe Kontrollgruppe 


Sig. Korr. Sig. SIE. Korr. Sig. Sig. Korr. Sig. 


wenig komplex — außerordentlich komplex .510 1.000 .837 1.000 .087 .871 
wenig komplex — leicht komplex .000 .000 .000 .000 .081 .808 
wenig komplex — sehr komplex .000 .000 .000 .000 .015 .145 
wenig komplex — komplex .000 .000 .000 .000 .001 .008 
außerordentlich komplex - leicht komplex .000 .000 .000 .000 ‚972 1.000 
außerordentlich komplex — sehr komplex .O000 .000 .000 .000 .463 1.000 
außerordentlich komplex -— komplex .000 .000 .000 .000 .101 1.000 
leicht komplex — sehr komplex .000 .005 .001 .006 .485 1.000 
leicht komplex — komplex .000 .000 .000 .000 .108 1.000 
sehr komplex — komplex .000 .000 .000 .000 .364 1.000 


Anmerkungen. Korr. Sig. = korrigierte Signifikanz (angepasst mit Bonferroni-Korrektur). 


Ergänzend und abschließend wurde mit dem Mann-Whitney-U-Test geprüft, 
ob Unterschiede in der Anwendung zwischen den Kategorien der Komplexität 
zwischen der Kontrollgruppe und der Versuchsgruppe vorliegen (siehe Tabel- 
len B1 und B2). Als Gruppierungsvariable diente Q25 (Haben Sie an einer au- 
Beruniversitären Fortbildung zu Intelligenztests teilgenommen? Ja/Nein). 

Tendenziell wird die KABC-I (= außerordentlich komplex) von der Kon- 
trollgruppe (mittlerer Rang: 435,12) weniger genutzt als von der Versuchsgrup- 
pe (mittlerer Rang: 384,26, U(718, 57) = 17777, p = .088). Für die vier anderen 
Variablen konnten keine Unterschiede festgestellt werden. 


5.4.3 Unterschiede zwischen Verfügbarkeit und Vorlieben 
für Tests 


Hypothese 3 

H0: Es besteht kein Unterschied zwischen der Verfügbarkeit von Intelligenz- 
tests und der Vorliebe für einen bestimmten Intelligenztest. 

Hl: Es besteht ein Unterschied zwischen der Verfügbarkeit von Intelligenztests 
und der Vorliebe für einen bestimmten Intelligenztest. 


Die Verwendung der Tests wurde unter der Bedingung geprüft, dass die Tests 
auch tatsächlich zur Verfügung stehen. 
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Tabelle 31. Unterschiede zwischen Verfügbarkeit und Vorlieben für Tests. 


= bd > = ~ 

23 à & 3 P > FT fF fo 

PS EROE. iie E BEE 
K-ABC: 
neg. Rang n 99 103 87 77 18 17 94 87 63 54 
pos. Rangn 22 64 45 42 11 2 25 32 21 18 
Bindungen n 67 74 56 56 25 5 51 77 31 29 
Gesamt N 188 241 188 175 54 24 170 196 115 101 
Z -7.661 -3.228 -4.113 -4.005 -1.362 -3.186 -6.047 -5.177 -4.477 -4.941 
asymp. Sig. <001 .001 <001 <.001 .173 .001 <001 <.001 <.001 <.001 
KABC-II: 
neg. Rangn 108 102 65 9 4 57 58 TA 43 
pos. Rang n 176 161 125 40 31 100 136 70 66 
Bindungen n 76 66 75 14 12 65 52 64 53 
Gesamt N 360 329 265 63 47 222 246 205 162 
z -5.110 -5.005 -4.498 -4.516 -4.298 -3.580 -5.824 -.838 -2.059 
asymp. Sig. <.001 <.001 .001 <001 <.001 <.001 <.001 .402 .040 
CFT1/CFT1-R: 
neg. Rangn 61 95 20 12 113 110 101 77 
pos. Rangn 64 128 40 22 76 101 62 54 
Bindungen n 367 84 23 10 79 93 75 52 
Gesamt N 492 307 83 44 268 304 238 183 
Z =.334 -1.234 -2.124 -1.975 -3.207 -.532 -2.948 -2.262 
asymp. Sig. .738 ‚217 .034 .048 .001 .594 .003 .024 
CFT20-R 
neg. Rangn 90 13 19 82 72 106 65 
pos. Rang n 119 34 14 68 95 62 54 
Bindungen n 93 28 10 66 90 63 45 
Gesamt N 302 75 43 216 257 231 164 
z -1.099 -2.476 -.579 -1.543 -1.644 -3.443 -1.976 
asymp. Sig. 212 .006 .563 .123 .100 .001 .048 
WISC-IV 
neg. Rangn 3 9 67 69 83 48 
pos. Rangn 30 16 49 62 59 43 
Bindungen n 46 13 56 70 37 32 
Gesamt N 79 38 172 201 179 123 
z -3.767 -1.076 -2.053 -.749 -2.399 -.062 
asymp. Sig. <.001 .282 .040 .454 .016 .950 
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x x 00 0 3 3 3 an ab no A 
WPPSI-III 
neg. Rangn 6 34 30 34 26 
pos. Rangn 2 10 12 4 4 
Bindungen n 9 19 20 10 12 
Gesamt N Er 63 62 48 42 
Zz -1.137 -3.627 -2.806 -4.589 -3.237 
asymp. Sig. .256 <.001 .005 <.001 .001 
WNV 
neg. Rangn 6 6 TI 12 
pos. Rang n 6 13 5 9 
Bindungen n 17 14 8 14 
Gesamt N 29 33 24 35 
Z —.954 -1.043 -1.704 -.704 
asymp. Sig. .340 .297 .088 .482 
SON 2 
neg. Rang n 44 51 45 
pos. Rang n 53 39 42 
Bindungen n 189 86 24 
Gesamt N 286 176 111 
zZ -1.706 -1.737 -.480 
asymp. Sig. .088 .082 .631 
SON5 
neg. Rangn 57 49 
pos. Rangn 29 30 
Bindungen n 91 32 
Gesamt N 177 111 
Z -4.020 -1.732 
asymp. Sig. <.001 .083 
SON-R 6-40 
neg. Rang n 24 
pos. Rang n 45 
Bindungen n 46 
Gesamt N 115 
Zz -2.548 
asymp. Sig. .011 


Anmerkungen Tabelle 31. Ist der negative Rang höher, wird bei vorliegender Signifikanz der Test signifi- 
kant häufiger angewendet, der in der oberen Zeile steht; ist der positive Rang höher als der negative, wird 
bei vorliegender Signifikanz der in der linken Spalte untersuchte Test bevorzugt. 
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Paarweise Vergleiche (Q8: Wenn ich teste, nehme ich folgende Tests (...) vs. Q12: 
Folgende Tests stehen mir zur Verfügung (...))'" mit dem Wilcoxon-Test zwi- 
schen den Intelligenztests ergaben folgende Ergebnisse, unterteilt in Testverfah- 
ren, siehe Tabelle 31. 


e K-ABC: Bis auf den Vergleich mit WPPSI-II (T = 156.5, z = -1.362, p = 
.173) werden die übrigen neun Tests signifikant häufiger eingesetzt (p < .001 
bis p = .001) bei gleichzeitiger Verfügbarkeit. 

e KABC-I: Bis auf den Vergleich mit SON-R 6-40 (T = 5408, z = 0.838, p = 
.402) sind die Ergebnisse ähnlich eindeutig. KABC-II wird signifikant häufi- 
ger als IDS angewendet (T = 1618.5, z = 2.548, p = .040) und noch deutlich 
häufiger als die anderen acht Tests (p < .001 bis p = .001). 

e CFTUCFTI-R: Dieser Test wird signifikant häufiger verwendet als WPPSI- 
III (T = 1195, z = 2.124, p = .034), WNV (T = 410.5, z = 1.975, p = .048) und 
K-ABC (p = .001) (T = 8992,5, z = 3.228, p = .001), und seltener verwendet 
als KABC-II (T = 13250, z = -5.110, p < .001), SON-R 2%-7 (T = 6628.5, z = 
-3.207, p = .001), SON-R 6-40 (T = 4934, z = -2.948, p = .003) und IDS 
(T = 3354.5, z = -2.262, p = .024). 

e CFT20-R: Dieser Test wird signifikant häufiger verwendet als K-ABC (T = 
6163.5, z = 4.113, p < .001) und seltener als KABC-II (p = .001) (T = 11262, 
z = -5.005, p < .001), SON-R 6-40 (T = 4964, z = -3.443, p = .001) und IDS 
(T = 2837, z = -1.976, p = .048). 

e WISC-IV: Dieser Test wird signifikant häufiger verwendet als K-ABC (T = 
5067, z = 4.055, p < .001) und WPPSI-III (T = 486.5, z = 3.767, p < .001) und 
seltener als KABC-II (T = 5696, z = -4.498, p < .001), SON-R 2%-7 (T = 
2660.5, z = -2.053, p = .040) und SON-R 6-40 (T = 3915, z = -2.399, p = 
.016). 

e WPPSI-III: Entweder gab es keine signifikanten Unterschiede oder der Test 
wird signifikant seltener als andere eingesetzt. Dies gilt für KABC-II (T = 
164.5, z = -4.516, p < .001), für CFT1/CFT1-R (T = 635, z = -2.124, p = 
.034), CFT20-R (T = 309, z = -2.746, p = .006), SON-R 2%-7 (T = 190, z = 
-3.627, p < .001), SON-R 6-40 (T = 58, z = -4.589, p < .001) und IDS (T = 
77.5,2= -3.237, p = .001). 

e WNV: Da dieser Test nur selten vorhanden ist, sind die Fallzahlen geringer, 
so dass vorsichtiger interpretiert werden sollte. WNV wird signifikant häu- 
figer durchgeführt als K-ABC (T = 172.5, z = 3.186, p = .001) und seltener 
als KABC-II (T = 56, z = -4.298, p < .001) und CFTV/CFTI-R (T = 184.5, 
z = -1.975, p = .048). 


100 Likert-Skala: immer (1) - oft (2) - gelegentlich (3) - selten (4) - nie (5). 
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e SON-R 2%-7: Dieser Test wird signifikant häufiger durchgeführt als K-ABC 
(T = 5814, z = 6.047, p < .001), CFT1/CFT1-R (T = 11326, z = 3.207, p = 
.001), WISC-IV (T = 4125.5, z = 2.053, p = .040) und WPPSI-III (T = 800, 
z = 3.627, p < .001) und seltener als KABC-I (T = 4191, z = -3.580, p < 
.001). 

e SON-R 5%-17: Dieser Test wird signifikant häufiger durchgeführt als K- 
ABC (T = 5481.5, z = 5.177, p < .001) und WPPSI-IN (T = 672, z = 2.806, p = 
.005) und seltener als KABC-I (T = 4956, z = -5.824, p > .001) und SON-R 
6-40 (T = 952.5, z = -4.020, p < .001). 

e SON-R 6-40: Dieser Test wird signifikant häufiger durchgeführt als IDS 
(T = 1618.5, z = 2.548, p = .011), K-ABC (T = 2777, z = 4.477, p < .001), 
CFT1/CFT1-R (T = 8432, z = 2.948, p = .003), CFT20-R (T = 9232, z = 
3.443, p = .001), WISC-IV (T = 6238, z = 2.399, p = .016), WPPSI-III (T = 
683, z = 4.589, p < 001) und SON-R 5%-17 (T = 2788, z = 4.020, p < .001). 

e IDS: Dieser Test wird signifikant häufiger als K-ABC (T = 2183, z = 4.941, 
p < .001), CFT1/CFT1-R (T = 5291.5, z = 2.262, p = .024), CFT20-R (T = 
4303, z = 1.976, p = .048) (T = 156,5, z = -1,362, p = .173) und WPPSI-III 
(T = 387.5, z = 3.237, p = .001) und seltener als KABC-II (T = 2325, z = 
-2.059, p = .040) durchgeführt. 


Bis hierhin wurde geprüft, ob bei zwei vorhandenen Tests einer präferiert wird. 
Es ist jedoch auch möglich, dass gleichzeitig drei oder mehr Intelligenztests zur 
Verfügung stehen. Im Folgenden wurde geprüft, ob Tests bevorzugt angewen- 
det werden, wenn mehr als ein weiterer zur Verfügung steht. Unter der Bedin- 
gung des Vorhandenseins mehrerer Tests würden entsprechend eingesetzte Fil- 
ter dazu führen, dass die Fallzahl sich evtl. erheblich reduziert ab der Prüfung 
von drei oder mehr gleichzeitig verfügbarer Tests. Um aussagekräftige Ergeb- 
nisse zu erzielen, wird auf die Prüfung bei zu geringen Fallzahlen (z.B. einstelli- 
ge) verzichtet. Die geringste verwendete Fallzahl beträgt 25. Die Auswahl der 
Kombinationen basierten auf inhaltlichen Überlegungen und beschränken sich 
auf Grund der Vielzahl von Möglichkeiten auf ausgewählte Kombinationen'”. 
Bei der Annahme, dass die schnellen Tests präferiert werden gegenüber den auf- 
wändigen Tests, sind z.B. Vergleiche zwischen ein- bzw. mehrdimensionalen 
Tests sinnvoll. 

Der paarweise Vergleich mit dem Friedman-Test nach Rang ermittelte für 
unterschiedliche Kombinationen folgende Ergebnisse: 


101 Durch die große Anzahl an Kombinationsmöglichkeiten wurde zudem darauf verzichtet, 
zu prüfen, ob bestimmte Tests präferiert werden, wenn andere Tests vorhanden sind und 
andere Tests nicht zur Verfügung stehen. Es ist also durchaus möglich, dass bei einer 
Prüfung zwischen vier zur Verfügung stehenden Tests auch noch weitere Tests zur Ver- 
fügung stehen. 
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Prüfung unter der Bedingung, dass eine Vielzahl von Tests zur Verfügung 
stehen: 

In dieser ersten Bedingung ist von Interesse, ob bei einer größeren Auswahl an 
Tests bestimmte bevorzugt angewendet werden. 

Lediglich zwei ProbandInnen gaben an, über alle elf der für diese Arbeit be- 
sonders interessierenden Tests zu verfügen. Deshalb sind in der ersten Berech- 
nung K-ABC, WPPSI-IIL, IDS und WNV ausgelassen worden, so dass immer- 
hin 39 SonderpädagogInnen'” angaben, über die übrigen acht Tests zu verfügen. 
Dies ist die maximal mögliche Anzahl von Tests, für die eine Auswertung sinn- 
voll ist unter der Bedingung, dass möglichst viele Tests zur Verfügung stehen. 
Beim Vergleich der mittleren Ränge konnte ein signifikanter Unterschied be- 
züglich der Anwendungshäufigkeit ermittelt werden (F(6) = 12.82, p = .046), 
nach der Bonferroni-Korrektur allerdings kein signifikanter Unterschied zwi- 
schen zwei Tests. 

Eine weitere Kombination von vielen Tests entstünde bei der Auslassung 
von KABC-II, K-ABC, IDS, WNV und WPPSI-II (N = 54). Auch hier konnte 
für die verbliebenen sechs Tests keine Signifikanz festgestellt werden (F(5) = 
1.51, p = .912). Dies ist auch der Fall, wenn WNV, IDS, SON-R 6-40 und 
WPPSI-II ausgelassen werden (F(6) = 7.42, p = .283) 

Liegt also eine Auswahl mehrerer Tests vor, konnte nicht festgestellt wer- 
den, dass einer der Tests bevorzugt angewendet wird. 

Die Ergebnisse dieser Bedingungen sind unter Berücksichtigung kleinerer 
Fallzahlen zu interpretieren. 


Prüfung unter der Bedingung, dass die ein- bzw. mehrdimensionalen Tests 
zur Verfügung stehen: 

Die für diese Arbeit vorgenommene Einteilung in ein- (CFTV/CFT1-R, CFT20- 
R, SON-R 6-40) bzw. mehrdimensionale Tests (K-ABC, KABC-II, WISC-IV, 
WPPSI-IIL SON-R 2%-7) ermittelt eine zu geringe Fallzahl, so dass bei Auslas- 
sung der K-ABC 25 Personen gleichzeitig über die anderen Verfahren verfügen. 
Es gibt für diesen Fall signifikante Unterschiede (F(6) = 25.68, p < .001), die 
auch nach der strengen Bonferroni-Korrektur für den Vergleich zwischen den 
Tests vorliegen. Die KABC-I (mittlerer Rang = 3.16; p = .002), der SON-R 6- 
40 (mittlerer Rang = 3.32; p = .005) und der SON-R 2%-7 (mittlerer Rang = 
3.54, p = .018) werden signifikant häufiger als der WPPSI-IH (mittlerer Rang = 
5.58) angewendet. 


102 Unter Berücksichtigung der Gewichtungen. 
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Prüfung unter der Bedingung, dass die KABC-II und eindimensionale Tests 
zur Verfügung stehen: 

Stehen neben der KABC-II alle eindimensionalen Tests zur Verfügung, gibt es 
keinen signifikanten Unterschied in der Anwendung (F(3) = 1.58, p = .663) 


Prüfung unter der Bedingung, dass der WISC-IV und eindimensionale Tests 
zur Verfügung stehen: 

Auch für diese Bedingung konnte kein signifikanter Unterschied festgestellt 
werden (F(3) = 2.70, p = .439). 


Prüfung unter der Bedingung, dass die mehrdimensionalen Tests 

zur Verfügung stehen: 

Bei der Prüfung zwischen KABC-I, WISC-IV und WPPSI-II ergaben sich si- 
gnifikante Unterschiede (F(2) = 16.25, p < .001). Die KABC-II (mittlerer Rang = 
1.72) wird signifikant häufiger angewendet (p = .006) als der WPPSI-III (mittle- 
rer Rang = 2.35). 

Bei der Prüfung zwischen KABC-IL WISC-IV und SON-R 2%-7 ergaben 
sich ebenfalls signifikante Unterschiede (N = 116; F(2) = 18.12, p < .001)). Die 
KABC-I (mittlerer Rang = 1.73) wird signifikant häufiger als der SON-R 2%-7 
(mittlerer Rang = 2,07; p = .026) und der WISC-IV (mittlerer Rang = 2.20; p = 
.001) eingesetzt. 

Bei der Prüfung zwischen WISC-IV, SON-R 2%-7 und WPPSI-II liegen 
ebenfalls Unterschiede vor (N = 47; F(2) = 12.39, p = .002). Der SON-R 2%-7 
(mittlerer Rang: 1.74) wird signifikant häufiger als der WPPSI-IH (mittlerer 
Rang = 2.33; p = .014) eingesetzt. 


Prüfung unter der Bedingung, dass die eindimensionalen Tests 

zur Verfügung stehen: 

Bei der Prüfung von CFTV/CFT1-R, CFT20-R und SON-R 6-40 gibt es zwar 
insgesamt eine Signifikanz (N = 190; F(2) = 6.98, p = .030), allerdings nach der 
strengen Bonferroni-Korrektur nicht zwischen den Tests. 


Prüfung unter der Bedingung, dass die neuesten und die ältesten Tests 

zur Verfügung stehen: 

Im Vergleich zwischen den aktuellsten Tests KABC-II und SON-R 6-40 mit den 
ältesten Tests K-ABC und SON-R 5%-17 gibt es insgesamt (N = 59) einen si- 
gnifikanten Unterschied (F(3) = 22.76, p < .001). Die KABC-I (mittlerer Rang = 
2.19; p = .002) und der SON-R 6-40 (mittlerer Rang = 2.21; p = .003) werden 
signifikant häufiger als die K-ABC eingesetzt (mittlerer Rang = 3.04). Allerdings 
sei erwähnt, dass kein signifikanter Unterschied in der Anwendung zwischen 
dem SON-R 5%-17 (mittlerer Rang = 2.55) und dem SON-R 6-40 (p = .923) 
und zwischen der KABC-I und dem SON-R 5%-17 (p = .806) attestiert werden 
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kann. Dies wäre noch nicht einmal ohne Bonferroni-Korrektur der Fall (KABC-II 
vs. SON-R 5%-17: p = .134; SON-R 6-40 vs. SON-R 5%-17: p = .154). 


Unter der Bedingung, dass die nonverbalen bzw. sprachfairen Tests 

zur Verfügung stehen: 

Die sechs Verfahren, die auch die Möglichkeit der sprachfreien (SON-R 2%-7, 
SON-R 6-40, WNV) bzw. sprachfairen Testungen ermöglichen (CFTV/CFTI- 
R, CFT20-R) sind zu selten gemeinsam vorhanden (N = 6), so dass der WNV 
als wenig verbreiteter Test ausgelassen worden ist. Unter dieser Bedingung gibt 
es keine signifikanten Unterschiede (N = 80, p = .670). Stehen mehrere sprach- 
freie bzw. -faire Tests zur Verfügung, konnte kein Hinweis ermittelt werden, 
dass ein Test der SON- bzw. CFT-Reihe bevorzugt angewendet werden würde. 


Hypothesenprüfung mit der Kontrollgruppe: 

Die besondere Stellung der KABC-I resultiert möglicherweise aus einer selek- 
tiven Auswahl der Stichprobe, die überwiegend aus ehemaligen TeilnehmerIn- 
nen von Diagnostik-Fortbildungen besteht. An den Fortbildungen nahm die 
Vorstellung der KABC-I eine prominente Stellung ein. Es könnte also eine be- 
sondere Affinität zu diesem Test angenommen werden. Dies ist ein Beispiel da- 
für, dass entsprechende Verzerrungen bei der Interpretation der Ergebnisse be- 
rücksichtigt werden müssen. 

In der Gegenüberstellung zwischen der Kontrollgruppe - ProbandInnen, 
die noch nie an einer außeruniversitären Fortbildung zum Thema teilnahmen - 
und den ProbandInnen, die an einer Fortbildung teilnahmen, sind durch die 
geringere Fallzahl der Kontrollgruppe lediglich Prüfungen für die Annahme 
sinnvoll, dass jeweils zwei Tests gleichzeitig zur Verfügung stehen. Tabelle 32 
zeigt die Ergebnisse der Prüfung an, Tabelle 33, wie häufig die Tests vorhanden 
sind. Geprüft worden sind alle Kombinationen für die elf Intelligenztests, be- 
schrieben werden jedoch lediglich die Kombinationen mit einer Fallzahl im 
zweistelligen Bereich zur Erhöhung der statistischen Power, auch wenn der 
verwendete Wilcoxon-Test für kleine Fallzahlen geeignet ist. Da die Gesamtfall- 
zahl sehr groß ist, besteht allerdings keine Notwendigkeit, auf Prüfungen mit 
sehr kleinen Fallzahlen zurückzugreifen. Zur Vermeidung von Artefakten wird 
deshalb diese Grenze festgelegt. 

Die Unterschiede zwischen der Versuchs- und Kontrollgruppe sind beacht- 
lich. Für einige Tests liegen zu wenige Übereinstimmungen vor, so dass die 
Ergebnisse der Prüfungen für WNV, WPPSI-II und IDS entfallen. Die Signifi- 
kanzprüfungen werden zusammengefasst mit den p-Werten dargestellt. 
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Tabelle 32. Unterschiede zwischen Verfügbarkeit und Vorlieben für Tests, unterschie- 
den nach Versuchs- und Kontrollgruppe - Fortsetzung nächste Seite. 


Versuchsgruppe Kontrollgruppe 
Er ur 
E E 

3 $ $ 3 anslged $ $ 3 gngägge 
K-ABC 
neg. Rangn 94 94 80 73 88 83 5 9 7 4 6 4 
pos. Rangn 18 57 41 37 22 30 4 7 4 5 3 2 
Bindungenn 64 72 51 53 43 66 3 2 5 3 8 11 
Gesamt N 176 223 172 163 153 179 12 18 16 12 17 17 
Z -7.6 -3.2 -4.1 -4.4 -6.0 -5.0 -11 -0.7 -0.7 -0.2 -0.8 -1.4 
asymp. Sig. <.001 .001 <.001 <.001 <.001 <.001 ‚280 .511 .500 .810 .399 .163 
KABC-II 
neg. Rangn 104 96 60 48 51 67 4 6 5 9 7 3 
pos. Rangn 167 150 118 92 128 67 9 11 7 8 8 4 
Bindungen n 70 62 74 64 49 54 6 4 1 1 3 10 
Gesamt N 341 308 252 204 228 188 19 21 13 18 18 17 
z -5.2 -49 -4.2 -3.3 -5.6 -0.9 -0.2 -1.1 -1.6 -11 -1.5 -0.9 
asymp. Sig. <.001 <.001 <.001 .001 <.001 .360 804. .279 .102 .271 .133 .660 
CFT1-R 
neg. Rangn 58 91 106 101 95 3 4 7 9 6 
pos. Rangn 55 120 66 95 59 9 8 10 6 3 
Bindungen n 345 79 73 81 66 22 5 6 12 9 
Gesamt N 458 290 245 277 220 34 17 23 27 18 
Z -10 -0.9 -3.5 -0.7 -29 -18 -1.4 -0.7 -0.4 -0.5 
asymp. Sig. .920 .323 .001 .497 .004 .071 .169 -537 .665 .590 
CFT2O-R 
neg. Rangn 82 74 63 95 8 8 9 11 
pos. Rangn 113 62 88 59 6 6 7 3 
Bindungen n 87 59 78 54 6 7 12 9 
Gesamt N 282 195 229 208 20 21 28 23 
Z -1.6 -1.4 -18 -3.1 -1.6 -7 -0.1 -1.6 
asymp. Sig. .118 -159 .078 .002 .101 .497 .958 .111 
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Versuchsgruppe Kontrollgruppe 


x ur 
E È 

3 $ 8 3 grgīgog 3 $ 3 gr gägg 
WISC-IV 
neg. Rang n 59 60 75 8 9 
pos. Rang n 47 59 56 2 3 3 
Bindungen n 50 67 35 6 3 2 
Gesamt N 156 186 166 16 15 13 
z -1.7 -2 -1.9 -1.7 -1.7 -2.0 
asymp. Sig. .092 .855 .052 .084 .087 .041 
SON-R 212-7 
neg. Rang n 38 6 
pos. Rang n 47 6 
Bindungen n 167 22 
Gesamt N 252 34 
Z -1.6 -0.5 
asymp. Sig. .108 .597 
SON-R 51⁄2- 
17 
neg. Rang n 52 5 
pos. Rang n 26 3 
Bindungen n 78 13 
Gesamt N 156 21 
z -3.8 -1.3 


asymp. Sig. <.001 .196 


Anmerkungen. Ist der negative Rang höher, wird bei vorliegender Signifikanz der Test signifikant häufiger 
angewendet, der in der oberen Zeile steht; ist der positive Rang höher als der negative, wird bei vorliegen- 
der Signifikanz der in der linken Spalte untersuchte Test bevorzugt. Auslassungen: zu geringe Fallzahl. 

z: z-Wert aus Gründen der Übersichtlichkeit auf eine Dezimalstelle reduziert. 


Tabelle 33. Übersicht vorhandene Intelligenztests in der Versuchs- und Kontrollgruppe. 


o 5 S S z z En eN g 

2 8 Pg 2 È z z4 Z4 2 y% 

D u 4 IL = O 3 O à O I O 

x x OF O 3 3 3 OA aD Do A 
Kontrollgruppe 44 45 54 57 46 23 4 58 62 36 22 
n=101 
Versuchsgruppe 369 562 617 580 419 117 68 396 450 338 259 
n=927 
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K-ABC'”: Während in der Versuchsgruppe für jede geprüfte Kombination 
die anderen Tests präferiert werden (p < .001 bis p = .001), konnten für die 
Kontrollgruppe keine Signifikanzen festgestellt werden. Unabhängig von 
der Qualität, des Alters, der Komplexität oder der Dimensionalität der ande- 
ren Tests wird die K-ABC nicht seltener oder häufiger von der Kontroll- 
gruppe genutzt, auch wenn bessere und aussagekräftigere Tests zur Verfü- 
gung stehen. 

KABC-II: Ähnliches gilt für die KABC-II, sie wird in der Kontrollgruppe 
nicht signifikant häufiger oder seltener angewendet bei gleichzeitigem Vor- 
handensein anderer Tests. In der Versuchsgruppe wird die KABC-II gegen- 
über den anderen Tests bevorzugt (p < .001 bis p = .001). Eine Ausnahme 
bildet lediglich der SON-R 6-40 (p = .360). 

CFTV/CFTI-R: In der Kontrollgruppe liegen keine Signifikanzen vor. In der 
Versuchsgruppe wird der CFTV/CFTI-R signifikant häufiger als die K-ABC 
(p = .001) und seltener als die KABC-I (p <. 001), SON-R 2%-7 (p = .001) 
und SON-R 6-40 (p = .004) eingesetzt. 

CFT20-R: Es liegen keine signifikanten Ergebnisse für die Kontrollgruppe 
vor. Bei der Versuchsgruppe werden die K-ABC (p < .001) seltener und die 
KABC-I (p < .001) und der SON-R 6-40 (p = .002) häufiger eingesetzt. 
SON-R 2%-7: Es liegen keine signifikanten Ergebnisse für die Kontrollgrup- 
pe vor, in der Versuchsgruppe wird die K-ABC (p < .001) seltener und die 
KABC-I (p = .001) häufiger eingesetzt. 

SON-R 5%-17: Während hier ebenfalls keine Unterschiede in der Anwen- 
dung in der Kontrollgruppe festgestellt werden konnten, wird in der Ver- 
suchsgruppe die K-ABC (p < .001) seltener und die KABC-I (p = .001) häu- 
figer eingesetzt. 

SON-R 6-40: Der einzig ermittelte signifikante Unterschied für die Kon- 
trollgruppe konnte beim Vergleich mit dem WISC-IV (p = .041) festgestellt 
werden, welcher seltener angewendet wird. In der Versuchsgruppe werden 
der SON-R 5%-17 (p < .001), der CFTV/CFT1-R (p = .004) und der CFT20- 
R (p = .002) seltener angewendet. 


5.4.4 Unterschiede in der Anwendung der Tests abhängig 


vom Bundesland 


Im Vergleich zwischen den Bundesländern werden Unterschiede bezüglich der 
Anwendung und der mit der Anwendung verbundenen Problematiken ange- 


nommen. Der Vergleich zwischen den Bundesländern wird mit Hilfe von sie- 


103 Kein Vergleich mit dem SON-R 6-40, da die Fallzahl zu niedrig ist. 
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ben Hypothesen geprüft. Obwohl ProbandInnen aus allen Bundesländern geant- 
wortet haben, werden lediglich die Bundesländer verglichen, deren Fallzahl ak- 
zeptable Auswertungen erwarten lassen. Bei der letztmalig erhobenen Statistik 
für die deutsche Bevölkerung am 31.12.2015 (Destatis, 2015) sind 82.18 Millio- 
nen in Deutschland lebende Personen angegeben. Die für die Hypothesenprü- 
fungen in Frage kommenden Länder repräsentieren zusammen ca. 51.48 Mil- 
lionen Menschen (ca. 62.64% der Gesamtbevölkerung). Es sind Baden-Würt- 
temberg (N = 130), Hamburg (N = 29), Hessen (N = 109), Niedersachsen (N = 
143), Nordrhein-Westfalen (N = 465), Rheinland-Pfalz (N = 51) und Schleswig- 
Holstein (N = 31)", 


Hypothese 4.1 

H0: Es besteht kein Zusammenhang zwischen dem Bundesland und der Ver- 
fügbarkeit der Intelligenztests. 

Hl: Es besteht ein Zusammenhang zwischen dem Bundesland und der Ver- 
fügbarkeit der Intelligenztests. 


Für die Prüfung wurden der Chi-Quadrat-Unabhängigkeitstest und Kreuztabel- 
len genutzt. Der Chi-Quadrat-Test akzeptiert auch kleinere Fallzahlen bei min- 
destens fünf Beobachtungen je Zelle, so dass die Ergebnisse aus Hamburg und 
Schleswig-Holstein problemlos ausgewertet werden konnten. 

Die Prüfung ergab für jeden Intelligenztest signifikante Unterschiede zwi- 
schen dem jeweiligen Bundesland im Vergleich mit den anderen Bundeslän- 
dern mit ausreichend hohen Fallzahlen, siehe zusammengefasst in Tabelle 34. 
Tatsächlich stehen abhängig vom Bundesland unterschiedliche Tests zur Ver- 
fügung. 


Tabelle 34. Signifikanzprüfung mit dem Chi-Quadrat-Test nach Pearson, ob unter- 
schiedliche Tests abhängig vom Bundesland zur Verfügung stehen. 


K-ABC KABC-II CFT1/ CFT20-R WISC-IV WPPSI- WNV SON-R SON-R SON-R IDS 
CFT1-R IIl 212-7 5W%-17 6-40 


p<.001 p<.001 p<.001 p<.001 p<.001 p=.001 p=.028 p<.001 p=.002 p<.001 p<.001 


Anmerkung. Vergleich für ausgewählte Bundesländer mit ausreichend hohen Fallzahlen. 


Ergänzend wurden die Berechnungen für alle 16 Bundesländer ausgeführt, die 
Unterschiede sind marginal. Veränderungen liegen vor für WPPSI-II (x’(15, 
N = 1025) = 44.52, p < .001) und WNV (y’(15, N = 1024) = 112.91, p = .001). 


104 Abweichungen von den im deskriptiven Kapitel angegebenen Stichproben resultieren aus 
den weiter oben beschriebenen Gewichtungen. 
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Dass in den Bundesländern unterschiedliche Tests zur Verfügung stehen ist 
interessant, gibt aber noch keine Hinweise darauf, welche Unterschiede im Ein- 
zelnen vorliegen und welche Schlussfolgerungen aus diesen Unterschieden ge- 
zogen werden könnten. Die häufige Anwendung veralteter Tests in einem Bun- 
desland bei gleichzeitigem Mangel an aussagekräftigen Tests gäbe z.B. einen 
Hinweis auf notwendige Veränderungen in der Anschaffungspraxis. 

Exemplarisch soll die Verfügbarkeit der KABC-II und des SON-R 5%-17 
detailliert vorgestellt werden. Dies ist interessant, da die KABC-II derzeit einer 
der aktuellsten und aussagekräftigsten Tests, der SON-R 5%-17 hingegen einer 
der ältesten und deutlich weniger aussagekräftigen Tests ist. 

So zeigen sich bei der Verfügbarkeit der KABC-II deutliche Unterschiede 
zwischen den Bundesländern, siehe Tabelle 35. 


Tabelle 35. Verfügbarkeit der KABC-II und des SON-R 52-17 in ausgewählten Bun- 
desländern. 


KABC-II SON-R 512-17 
nicht vorhanden vorhanden Gesamt nicht vorhanden vorhanden Gesamt 
BW 32 98 130 70 61 131 
25% 75% 100% 53% 47% 100% 
HH 18 11 29 23 6 29 
63% 38% 100% 79% 21% 100% 
HE 21 89 110 50 60 110 
19% 81% 100% 46% 54% 100% 
NI 73 70 143 77 66 143 
51% 49% 100% 54% 46% 100% 
NRW 215 250 465 206 259 465 
46% 53,8% 100% 44% 56% 100% 
RP 17 34 51 24 27 51 
33% 66,7% 100% 47% 53% 100% 
SH 2 29 31 20 11 31 
7% 93% 100% 64% 36% 100% 
Ges. 378 581 959 470 490 960 
39% 61% 100% 49% 51% 100% 


Anmerkung. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. Ges. = Gesamt. 


Während die KABC-H im Durchschnitt bei 61 Prozent Verfügbarkeit liegt, sind 
dies deutlich mehr in Baden-Württemberg (75%) und weniger in Niedersachsen 
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(49%). Während also in Baden-Württemberg drei von vier Sonderpädagogln- 
nen über die KABC-II verfügen, sind dies in Niedersachsen zwei von vier. Auch 
ein kurzer Blick auf die Verfügbarkeit des SON-R 5%-17 zeigt Unterschiede: 

Beim SON-R 5%-17 ist vor allem interessant, dass dieser veraltete Test ins- 
gesamt noch zur Hälfte vorhanden ist (51%), in Hamburg (20%) und Schles- 
wig-Holstein (35%) jedoch unterdurchschnittlich selten'®. 

Ob die Durchschnittsunterschiede signifikant sind, wurde mit dem Chi- 
Quadrat-Test nach Pearson geprüft, sowohl für die KABC-I und den SON-R 
5%-17 als auch für die anderen Testverfahren. Tabelle 36 gibt einen Überblick 
über signifikante Unterschiede. 


Tabelle 36. Signifikanzprüfung mit dem Chi-Quadrat-Test nach Pearson bezüglich der 
Verfügbarkeit der Tests in ausgewählten Bundesländern, verglichen mit der Gesamt- 
heit der übrigen Bundesländer. 


K-ABC 
KABC-II 
CFT1/ 
CFT1-R 
CFT20-R 
WISC-IV 
WPPSI-III 
WNV 
SON-R 
215-7 
SON-R 
512-17 
SON-R 
6-40 


IDS 


BW .000 .000 .008 .000 .424 .002 .138 .000 .427 .028 .004 
HH .003 .019 .713 .051 .065 .107 .138 .003 .001 .318 .000 
HE .006 .000 .000 .000 ‚000 .824 ‚831 ‚295 ‚293 .000 .000 
NI .142 .008 .147 .001 .617 ‚361 .034 .042 .340 .000 .015 
NRW .120 .002 .000 .000 .000 .005 .003 .169 .001 .000 .029 
RP ‚299 .256 ‚044  .013 .022 .011 ‚403 .032 .651 .306 .097 


SH 0,98 .000 .289 .001 .472 .679 .412 .321 .105 .045  .311 
Anmerkungen. Fettdruck = Test ist signifikant häufiger vorhanden. Kursivdruck = Test ist signifikant 
seltener vorhanden. Aus Gründen der Übersichtlichkeit wird ausschließlich p angegeben. BW = Baden- 


Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = Nordrhein-Westfalen. RP = 
Rheinland-Pfalz. SH = Schleswig-Holstein. 


Tabelle 36 verdeutlicht, dass die unterschiedliche Verfügbarkeit (seltener oder 
häufiger vorhanden als in anderen Bundesländern) häufig vorkommt. Lediglich 
in Schleswig-Holstein ist dies nicht der Fall: sieben Tests sind weder häufiger 
noch seltener vorhanden, zwei Tests häufiger und ein Test seltener, ein weiterer 
Test tendenziell seltener. 


105 Wäre dieser Unterschied signifikant, wäre dies lediglich ein Hinweis, dass dieser veraltete 
Test seltener vorhanden ist und darf nicht gleichgesetzt werden mit der Annahme, dass 
dann eher aktuellere Tests angewendet werden anstatt veralteter Tests. Es wäre auch 
möglich, dass weder alte noch neue Tests vorhanden sind. 
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Die Ergebnisse im Detail für die ausgewählten Bundesländer: 


In Baden-Württemberg verfügen die SonderpädagoglInnen signifikant häu- 
figer über die Tests K-ABC (y’(l, N = 1027) = 28.43, p < .001), KABC-I 
(GN = 1027) = 16.32, p < .001), WPPSI-III (x’(1, N = 1028) = 9.26, p = 
.002), SON-R 2%-7 (1, N = 1027) = 21.49, p < .001) und IDS (y’(1, N = 
1024) = 8.16, p = .004) und seltener über die Tests CFT1/CFT1-R (y’(1, N = 
1028) = 7.04, p = .008), CFT20-R (y(1, N = 1028) = 31.59, p < .001) und 
SON-R 6-40 (y’(1, N = 1028) = 4.85, p = .028). 

In Hamburg verfügen die SonderpädagoglInnen signifikant häufiger über 
die IDS (y’(1, N = 1028) = 14.71, p < .001) und signifikant seltener über die 
Tests K-ABC (y’(1, N = 1028) = 8.59, p = .003), KABC-II (y’(1, N = 1028) = 
5.50, p = .019), SON-R 2%-7 (X’(1, N = 1028) = 8.83, p = .003) und SON-R 
5%-17 (X’(1, N = 1028) = 10.12, p = .001). 

In Hessen verfügen die SonderpädagogInnen signifikant häufiger über die 
K-ABC ((11, N = 1027) = 7.53, p = .006), KABC-II (y(11, N = 1028) = 
24.35, p < .001), CFTV/CFTI-R (X’(1, N = 1028) = 27.97, p < .001), CFT20-R 
Q, N = 1028) = 35.92, p < .001), WISC-IV (y’(1, N = 1029) = 22.08, p < 
.001), SON-R 6-40 (y?(15, N = 1024) = 112.91, p = .001) und IDS (y’(1, N = 
1029) = 22.53, p < .001). Es fällt auf, dass es keinen Test gibt, über den hessi- 
sche Sonderpädagoglnnen signifikant seltener verfügen. 

In Niedersachsen verfügen die SonderpädagogInnen signifikant häufiger 
über den CFT20-R (y’(1, N = 1028) = 11.66, p = .001) und signifikant sel- 
tener über die KABC-II (x’(1, N = 1028) = 7.00, p = .008), den WNV (y(l, 
N = 1028) = 4.51, p = .034), den SON-R 2%-7 (X’(1, N = 1029) = 4.15, p = 
.042), den SON-R 6-40 (p < .001) (y’(1, N = 1027) = 33.29, p < .001) und die 
IDS (y’(1, N = 1029) = 5.94, p = .015). 

In Nordrhein-Westfalen verfügen die SonderpädagogInnen signifikant häu- 
figer über den SON-R 5%-17 (y’(1, N = 1029) = 11.60, p = .001) und den 
SON-R 6-40 (y’(1, N = 1027) = 14.31, p < .001), allerdings seltener über sie- 
ben der elf untersuchten Tests: KABC-II (x’(1, N = 1028) = 9.80, p = .002), 
CFT1/CFT1-R (Y’(1, N = 1028) = 28.85, p < .001), CFT20-R (y’(1, N = 1028) 
= 28.85, p < .001), WISC-IV (g’(1, N = 1027) = 21.83, p < .001), WPPSI-III 
(A, N = 1028) = 7.84, p = .005), WNV (y’(1, N = 1028) = 8.97, p = .003) 
und IDS (y’(1, N = 1027) = 4.77, p = .029). 

In Rheinland-Pfalz verfügen die SonderpädagogInnen signifikant häufiger 
über die Tests CFT1/CFT1-R (y’(1, N = 1027) = 4.06, p = .044), CFT20-R 
A, N = 1027) = 6.13, p = .013), WISC-IV (1, N = 1027) = 5.21, p = 
.022) und WPPSI-II (y’(1, N = 1028) = 6.43, p = .011) und seltener über 
den SON-R 2%-7 (Y’(1, N = 1028) = 4.61, p = .032). 

In Schleswig-Holstein verfügen die SonderpädagogInnen signifikant häufi- 
ger über die KABC-IL (x?(1, N = 1028) = 15.74, p < .001) und den CFT20-R 
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(v(,N = 1028) = 10.84, p = .001). Seltener vorhanden ist der SON-R 6-40 
GPCL, N = 1028) = 4.00, p = .045). 


Hypothese 4.2 

HO: Es besteht kein Unterschied zwischen den Bundesländern und vorgenom- 
menen Veränderungen bei der Anwendung von Intelligenztests, die die 
Durchführungsobjektivität gefährden. 

Hl: Es besteht ein Unterschied zwischen den Bundesländern und vorgenom- 
menen Veränderungen bei der Anwendung von Intelligenztests, die die 
Durchführungsobjektivität gefährden. 


Für diese Hypothesenprüfung werden die drei Items aus Q14 mit den Bundes- 
ländern verglichen: 


e Q14: Welche dieser Veränderungen haben Sie schon einmal vorgenom- 
men?!” 
= Q14/1: Durchführungszeiten geändert (z.B. nach Ablauf der regulären 
Durchführungszeit/Item einen Punkt gegeben bei richtiger Antwort) 
= Q14/2: Durchführungszeit ganz weggelassen 
= Q14/3: Rückmeldungen gegeben, wenn diese nicht vorgesehen waren 
(z.B. richtig oder hast du richtig gelöst) 


Mittel der Wahl war aufgrund des ordinalen Skalenniveaus der Daten die ein- 
faktorielle ANOVA nach Kruskal-Wallis (Kruskal & Wallis, 1952). Dieser Test 
wird auch für weitere Hypothesenprüfungen genutzt werden. Der für die Mes- 
sung zentraler Tendenzen bei mehreren unabhängigen Stichproben verwendete 
Kruskal-Wallis-Test (Universität Zürich, 2016) ermittelt signifikante Unter- 
schiede zwischen unabhängigen Stichproben bei nicht vorgeschriebenen Min- 
dest-Fallzahlen. Für Q14/1 kann die Alternativhypothese bestätigt werden 
(H(15) = 38.42, p = .001), ebenso für Q14/2 (H(15) = 34.82, p = .003), nicht je- 
doch für Q14/3 (H(15) = 20.91, p = .140). 

Bei einer Reduzierung auf die sieben Bundesländer mit einer ausreichend 
hohen Fallzahl!” wären die Ergebnisse ähnlich (Q14/1: H(6) = 22.52, p = .001, 
Q14/2: H(6) = 23.65, p = .001, Q14/3: H(6) = 11.93, p = .063). Lediglich bei 
Q14/3 liegt nun eine Tendenz vor. 

Über die Hypothesenprüfung hinaus sollen die post-hoc Verfahren für 
Q14/1 und Q14/2 die Grundlage für spätere Diskussionen bieten. So wäre es in- 
teressant, in welchen Bundesländern welche die Durchführungsobjektivität ge- 


106 Likert-Skala: immer (1) - oft (2) - gelegentlich (3) - selten (4) - nie (5). 
107 Geringste Fallzahl: Hamburg (N = 29). 
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fährdenden Veränderungen signifikant häufiger vorgenommen werden, um so 
eine argumentative Grundlage für modifizierte Richtlinien bei der Anwendung 
von Intelligenztests anbieten zu können. 

Für die Berechnungen werden die ermittelten Signifikanzen mit der Bonfer- 
roni-Korrektur überprüft. Diese Methode zur Vermeidung von Typ-I Fehlern 
(Nullhypothese ist wahr, wird aber zurückgewiesen) erhöht die Möglichkeit, ei- 
nen Typ-II Fehler zu begehen (Nullhypothese wird angenommen, obwohl sie 
falsch ist). Teilweise werden bei der Ergebnisdarstellung sowohl die mit der 
Bonferroni-Korrektur korrigierten und nicht korrigierten Signifikanzen darge- 
stellt, für die Hypothesenprüfungen werden jedoch in der Regel die mit der 
Korrektur ermittelten Signifikanzen genutzt. Aus den Hypothesenprüfungen 
sollen in der anschließenden Interpretation und Diskussion Empfehlungen für 
den Umgang mit Intelligenztests abgeleitet werden. Falsch abgeleitete Empfeh- 
lungen (Typ-I Fehler) werden für diese Forschungsarbeit als gravierender ange- 
nommen als nicht abgeleitete Empfehlungen (Typ-Il Fehler). Es wäre z.B. anma- 
ßend, einem Bundesland bei der Richtliniengestaltung im Umgang mit Intelli- 
genztests zu empfehlen, sorgfältiger die Durchführungsobjektivität zu wahren, 
obwohl sie evtl. gar nicht verletzt ist (Typ-I Fehler). 

Für das Item Q14/1 (Zeiten geändert) werden ebenfalls mit dem Kruskal- 
Wallis-Test Signifikanzen zwischen den sieben Bundesländern mit einer akzep- 
tablen Fallzahl ermittelt (siehe Tabelle 37 und Tabelle 38). 


Tabelle 37. Mittlere Ränge Bundesländer für Q14/1 (Durchführungszeiten weggelas- 
sen). 


BW HH HE NI NRW RP SH 
481.86 496.87 585.75 521.45 560.63 441.91 575.50 


Anmerkung. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. 


Entsprechend der Antwortmöglichkeiten (immer (1), oft (2), gelegentlich (3), 
selten (4), nie (5)) bedeutet ein niedrigerer mittlerer Rang eine häufigere Verlet- 
zung der Durchführungsobjektivität. SonderpädagoglInnen aus Hessen (mittle- 
rer Rang = 585,75) verändern am wenigsten, SonderpädagogInnen aus Rhein- 
land-Pfalz (mittlerer Rang = 441,91) am häufigsten die Durchführungszeiten, 
obwohl dies nicht erlaubt ist (Q14/1). 

Signifikant häufiger werden die Regeln zu den Durchführungszeiten verletzt 
von SonderpädagogInnen aus Rheinland-Pfalz gegenüber denen aus Hessen (p = 
.019) und NRW (p = .040) und von SonderpädagogInnen aus Baden-Württem- 
berg gegenüber denen aus NRW (p = .047) und Hessen (p = .034). 
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Tabelle 38. Signifikanzprüfung mit dem Kruskal-Wallis-Test für Q14/1 (Durchführungs- 
zeiten geändert) im Vergleich der Bundesländer. 


Vergleich Länder Teststatistik Standardfehler Sig. Korr. Sig. 
RP - BW 39.949 42.878 ‚351 1.000 
RP - HH 54.954 61.804 .374 1.000 
RP-NI 79.536 42.408 .061 1.000 
RP - NRW 118.715 38.219 .002 040 
RP - SH -133.588 58.332 .022 462 
RP-HE 143.840 43.378 .001 .019 
BW - HH -15.006 54.990 .785 1.000 
BW -NI -39.588 31.664 214: 1.000 
BW - NRW -78.766 25.786 .002 .047 
BW - SH -93.639 51.057 .067 1.000 
BW-HE -103.891 32.952 .002 .034 
HH -NI -24.582 54.625 .653 1.000 
HH - NRW -63.760 51.441 ‚215 1.000 
HH - SH -78.633 67.735 .246 1.000 
HH - HE -88.885 55.381 .108 1.000 
NI — NRW -39.178 24.996 .117 1.000 
NI - SH -54.051 50.663 .286 1.000 
NI — HE 64.303 32.338 .047 ‚982 
NRW - SH -14.873 47.213 .753 1.000 
NRW - HE 25.125 26.609 ‚345 1.000 
SH - HE 10.252 51.478 .842 1.000 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. Korr. Sig.: korrigierte Signifikanz. 


Für das Item Q14/2 (Zeiten weggelassen) werden ebenfalls mit dem Kruskal- 
Wallis-Test Signifikanzen zwischen den sieben Bundesländern mit einer akzep- 
tablen Fallzahl ermittelt (siehe Tabelle 39 und Tabelle 40). 
SonderpädagogInnen aus Hessen (mittlerer Rang = 557,60) lassen am we- 
nigsten, SonderpädagogInnen aus Rheinland-Pfalz (mittlerer Rang = 446,36) 
am häufigsten die Durchführungszeiten ganz weg, obwohl dies nicht erlaubt ist 


(Q1412). 
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Tabelle 39. Mittlere Ränge Bundesländer für Q14/2 (Durchführungszeiten geändert). 


BW (1) HH (6) HE (7) NI (9) NRW (10) RP(11) SH (15) 
492.64 506.75 557.60 538.30 554.90 446.36 497.17 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. 


Tabelle 40. Signifikanzprüfung mit dem Kruskal-Wallis-Test für Q14/2 (Durchführungs- 
zeiten weggelassen) im Vergleich der Bundesländer. 


Vergleich Länder Teststatistik Standardfehler Sig. Korr. Sig. 
RP - BW 46.279 33.258 .164 1.000 
RP - SH -50.803 44.980 .259 1.000 
RP - HH 60.386 46.648 ‚195 1.000 
RP-NI 91.932 32.958 .005 ‚111 
RP - NRW 108.539 29.753 .000 .006 
RP - HE 111.240 33.749 .001 .021 
BW - SH -4.524 39.096 .908 1.000 
BW - HH -14.108 41.005 731 1.000 
BW-NI -45.653 24.322 .061 1.000 
BW - NRW -62.260 19.762 .002 .034 
BW - HE -64.961 25.384 .010 ‚220 
SH - HH 9.583 50.976 851 1.000 
SH-NI 41.129 38.842 ‚290 1.000 
SH - NRW 57.736 36.161 ‚110 1.000 
SH - HE 60.437 39.515 .126 1.000 
HH = NI -31.545 40.762 ‚439 1.000 
HH - NRW -48.153 38.217 .208 1.000 
HH - HE -50.854 41.404 .219 1.000 
NI — NRW -16.607 19.253 .388 1.000 
NI - HE 19.308 24.990 440 1.000 
NRW - HE 2.701 20.578 .896 1.000 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. Korr. Sig.: korrigierte Signifikanz. 
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Signifikant häufiger werden die Durchführungszeiten ganz weggelassen von 
SonderpädagogInnen aus Rheinland-Pfalz gegenüber denen aus Hessen (p = 
.021) und NRW (p = .006) und von SonderpädagogInnen aus Baden-Württem- 
berg gegenüber denen aus NRW (p = .034). 

Für eine Gegenüberstellung zwischen der Versuchs- und Kontrollgruppe 
wurde zunächst geprüft, ob für ein Bundesland ProbandInnen im zweistelligen 
Bereich vorhanden sind. Die Fallzahlen der für eine Prüfung in Frage kommen- 
den Bundesländer sind der Tabelle 41 zu entnehmen. 


Tabelle 41. Bundesländer mit ausreichend hohen Fallzahlen für eine Gegenüberstel- 
lung Kontroll- und Versuchsgruppe (Hypothese 4.2). 


Jan Nein n Gesamt n 
Baden-Württemberg Kontrollgruppe 11 90 101 
Versuchsgruppe 119 807 927 
Niedersachsen Kontrollgruppe 22 79 101 
Versuchsgruppe 120 806 927 
Nordrhein-Westfalen Kontrollgruppe 39 62 101 
Versuchsgruppe 426 501 927 
Rheinland-Pfalz Kontrollgruppe 18 83 101 
Versuchsgruppe 33 894 927 


Anmerkung. Ja = Schule befindet sich in dem Bundesland. 


Der Kruskal-Wallis-Test ermittelte für die Versuchsgruppe ähnlich den Ergeb- 
nissen für die Gesamtgruppe signifikante Unterschiede für Q14/1 (H(3) = 9.16, 
p = .027) und für Q14/2 (H(3) = 18.09, p < .001), nicht aber für Q14/3 (H(3) = 
5.30, p = .151). Dies bedeutet, dass abhängig vom Bundesland die Durchfüh- 
rungszeiten zur Bearbeitung von Testaufgaben abweichend den Vorgaben der 
Manuale verändert worden sind (Q14/1) und abweichend von den Vorgaben 
der Manuale abhängig vom Bundesland signifikant unterschiedlich häufig die 
Durchführungszeiten weggelassen worden sind. Für das unerlaubte Geben von 
Feedbacks während der Testsituation konnte in der Häufigkeit kein signifikan- 
ter Unterschied zwischen den Bundesländern festgestellt werden. 

Die genauere Analyse ermittelte folgende Unterschiede zwischen den Bun- 
desländern für Q14/1 und Q14/2 (da für Q14/3 keine signifikanten Unterschie- 
de festgestellt worden sind, entfällt die Darstellung der mittleren Ränge für die- 
ses Item), veranschaulicht in Tabelle 42 und Tabelle 43. 

Grundlage soll die nach Bonferroni korrigierte Signifikanz sein. Demnach 
verändern SonderpädagogInnen aus Baden-Württemberg signifikant häufiger 
die Durchführungszeiten (p = .034) gegenüber denen aus Nordrhein-Westfalen 


192 


und lassen auch häufiger ganz die Durchführungszeiten weg gegenüber den 
SonderpädagogInnen aus Niedersachsen (p = .037) und Nordrhein-Westfalen 
(p = .007). Auch SonderpädagoglInnen aus Rheinland-Pfalz lassen häufiger die 
Durchführungszeiten ganz weg gegenüber denen aus Niedersachsen (p = .039) 
und aus Nordrhein-Westfalen (p = .025). 


Tabelle 42. Versuchsgruppe: mittlere Ränge für 014/1 und Q14/2 (Durchführungs- 
zeiten geändert bzw. weggelassen). 


Baden-Würtemb. Niedersachsen Nordrhein-Westf. Rheinland-Pfalz 
mittlerer Rang Q14/1 355.00 388.71 409.10 358.46 


mittlerer RangQ14/2 353.53 403.79 401.14 328.34 


Tabelle 43. Versuchsgruppe: Signifikanzprüfung mit dem Kruskal-Wallis-Test für 
014/1 und Q14/2 (Durchführungszeiten geändert bzw. weggelassen) im Vergleich 
der Bundesländer. 


014/1 014/2 

Sig. Korr. Sig. Sig. Korr. Sig. 
BW - RP .924 1.000 .363 1.000 
BW - NI .169 1.000 .006 .037 
BW - NRW .006 .034 .001 .007 
RP-NI 406 1.000 .007 .039 
RP - NRW .128 .767 .004 .025 
NI - NRW ‚297 1.000 857 1.000 


Anmerkungen. BW = Baden-Württemberg. NI = Niedersachsen. NRW = Nordrhein-Westfalen. RP = Rhein- 
land-Pfalz. Korr. Sig.: korrigierte Signifikanz. 


In der Kontrollgruppe konnten keine signifikanten Unterschiede zwischen den 
Bundesländern mit ausreichend hohen Fallzahlen festgestellt werden (Q14/1: 
H(3) = 6.91, p = .075; Q14/2: H(3) = 4.20, p = .240; Q14/3: H(3) = 2.63, p = 
.452). Dies sagt jedoch nichts darüber aus, ob in der Kontrollgruppe weniger 
oder häufiger gegenüber den SonderpädagogInnen aus der Versuchsgruppe 
Regeln verletzt werden. 

Abschließend ermittelte der Mann-Whitney-U-Test (siehe Tabelle 44 und 
Tabelle 45) unter Einbezug aller Bundesländer signifikante Unterschiede zwi- 
schen Kontroll- und Versuchsgruppe für Q14/1 (U(1051,105) = 44247.00, z = 
-3.82, p < .001) und Q14/2 (U(1042,105) = 47973.50.00, z = -3.04, p = .002), 
aber keinen signifikanten Unterschied für Q14/3 (U(1058,104) = 50209.00, z = 
1.56, p = .119). 
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Tabelle 44. Mittlere Ränge für Q14/1, Q14/2, Q14/3 für die Kontroll- und Versuchs- 
gruppe*. 


n mittlerer Rang 

Q14/1 (Zeiten verändert) Versuchsgruppe 1051 5883.90 
Kontrollgruppe 105 474.40 
Gesamt 1156 

Q14/2 (Zeiten weggelassen) Versuchsgruppe 1042 580.46 
Kontrollgruppe 105 509.89 
Gesamt 1147 

Q14/3 (unerlaubtes Feedback gegeben) Versuchsgruppe 1058 586.04 
Kontrollgruppe 104 535.28 
Gesamt 1162 


Anmerkung. * Größere Fallzahlen durch Gewichtungen möglich. 


Tabelle 45. Gegenüberstellung signifikante Unterschiede zwischen Kontroll- und Ver- 
suchsgruppe für Q14/1, Q14/2 und Q14/3. 


014/1 014/2 014/3 
Mann-Whitney-U 44247.000 47973.500 50209.000 
zZ -3.824 -3.044 -1.558 
asymptotische Signifikanz (2-seitig) .000 .002 .119 


Anmerkung. z = z-Wert. 


Ehemalige TeilnehmerInnen an Seminaren zur Intelligenzdiagnostik verändern 
signifikant seltener die Durchführungszeiten als SonderpädagogInnen, die an 
keiner entsprechenden Fortbildung teilnahmen (Q14/1: p < .001) und lassen si- 
gnifikant seltener die Durchführungszeiten ganz weg (Q14/2: p = .002). Bezüg- 
lich dem nicht vorgesehenen Geben von Feedbacks (Q14/3) gibt es keinen Un- 
terschied zwischen Kontroll- und Versuchsgruppe (p = .119). 


Hypothese 4.3 


H0: Bei den Bundesländern bestehen keine Unterschiede bei den Beeinträchti- 


gungen während der Anwendung von Intelligenztests durch fehlende oder 
unvollständige Materialien. 
H1: Bei den Bundesländern bestehen Unterschiede bei den Beeinträchtigungen 
während der Anwendung von Intelligenztests durch fehlende oder unvoll- 
ständige Materialien. 
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Q13 besteht aus drei Items, die für die Hypothesenprüfung vorgesehen sind: 
Wenn Sie testen möchten kommt es vor (...)!® 


e Q13/1: (...) dass einige Ihrer Intelligenztests nicht zur Verfügung stehen (z. B. 
ausgeliehen sind etc.)? 

e Q13/2: (...) dass die Testmaterialien unvollständig sind (z. B. fehlende Puzzle- 
teile)? 

e Q13/3: (...) dass Formulare/Arbeitsbögen fehlen? 


Bei der Berechnung für alle 16 Bundesländer ergeben sich nach der Anwendung 
des Kruskal-Wallis-Test hohe Signifikanzen für Q13/1 (H(15) = 74.57, p < 
.001), Q13/2 (H(15) = 74.19, p < .001) und für Q13/3 (H(15) = 51.26, p < .001). 
Bei der Berechnung für die sieben Bundesländer mit einer akzeptablen Fallzahl 
sind die Ergebnisse für p ebenfalls signifikant. 

Die Ergebnisse im Detail werden der Übersicht halber tabellarisch darge- 
stellt. 


Tabelle 46. Mittlere Ränge Bundesländervergleich für Q13/1, Q13/2, Q13/3. 


BW HH HE NI NRW RP SH 
013/1 (Test weg) 635.34 789.38 534.78 561.99 500.27 528.46 476.93 
013/2 (Material 648.78 670.84 591.60 444.10 534.09 442.97 434.96 


unvollständig 
013/3 (Formulare 642.21 714.59 490.46 509.44 523.03 598.14 486.72 
fehlen) 


Anmerkungen. Farblich markiert sind die beiden höchsten (hellgrau) und niedrigsten (grau) Ergebnisse. 
Niedriger mittlerer Rang = höhere Beeinträchtigung. BW = Baden-Württemberg. HH = Hamburg. HE = 
Hessen. NI = Niedersachsen. NRW = Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig- 
Holstein. 


Die mittleren Ränge (siehe Tabelle 46) zeigen, dass die erfragten Beeinträchti- 
gungen bei jedem der drei Items in Schleswig-Holstein (Q13/1: mittlerer Rang = 
476.93; Q13/2: mittlerer Rang = 434.96; Q13/3: mittlerer Rang = 486.72) am 
höchsten und ebenso bei jedem der drei Items in Hamburg am niedrigsten sind 
(Q13/1: mittlerer Rang = 789.38; Q13/2: mittlerer Rang = 670.84; Q13/3: mittle- 
rer Rang = 714.59). Erwähnt werden sollte das Ergebnis für Baden-Württem- 
berg, welches für alle drei Items ebenfalls wenige Beeinträchtigungen ermittelte 


108 Likert-Skala: immer (1) - oft (2) - gelegentlich (3) - selten (4) - nie (5). 
109 Die Begründung für über die Hypothesenprüfung hinausgehende Berechnungen werden 
weiter oben dargestellt und werden im Folgenden nicht erneut vorgenommen. 
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(Q13/1: mittlerer Rang = 635.34; Q13/2: mittlerer Rang = 648.78; Q13/3: mittle- 
rer Rang = 642.21). 

Ebenfalls aus Gründen der Übersicht werden für die drei Items jeweils nur 
die Signifikanzen und die korrigierten Signifikanzen (angepasst mit der Bonfer- 
roni-Korrektur) in Tabelle 47 vorgestellt. Grundlage für die Prüfungen bleiben 
die korrigierten Signifikanzangaben. 


Tabelle 47. Signifikanzprüfung mit dem Kruskal-Wallis-Test für Q13/1 (Tests fehlen), 
Q13/2 (Tests unvollständig), Q13/3 (Formulare fehlen) mit Angaben zu den Bundes- 
ländern, für die signifikant höhere Beeinträchtigungen nachgewiesen worden sind. 


013/1 013/2 013/3 


Sig. korr. Sig. gr. Beein. Si 


g. korr. Sig. gr. Beein. Sig. korr. Sig. gr. Beein. 


SH- NRW .649 1.000 .046 .973 .475 1.000 

SH - RP .425 1.000 .896 1.000 .081 1.000 

SH - HE ‚301 1.000 .004 .083 ‚946 1.000 

SH -NI .123 1.000 .864 1.000 .802 1.000 

SH - BW .004 .090 .000 .001 SH .005 .098 

SH - HH .000 .000 SH .001 .016 SH .002 .036 SH 
NRW-RP ‚513 1.000 .024 .497 .076 1.000 
NRW-HE .231 1.000 .042 .872 ‚254 1.000 

NRW - NI .024 .505 .001 .014 NI ‚403 1.000 

NRW - BW .000 .000 NRW .000 .000 NRW .000 .000 NRW 
NRW-HH .000 .000 NRW .009 .195 .000 .009 NRW 
RP - HE ‚877 1.000 .001 .025 RP .024 494 

RP -NI ‚455 1.000 .980 1.000 .036 .761 

RP - BW ‚021 ‚432 .000 .000 RP ‚318 1.000 

RP - HH .000 .002 RP .000 .007 RP .076 1.000 

HE —- NI .440 1.000 .000 .000 NI ‚774 1.000 

HE - BW .005 .103 .100 1.000 .000 .000 HE 
HE — HH .000 .000 HE .164 1.000 .000 .003 HE 
NI - BW .034 .711 .000 .000 NI .000 .001 NI 
NI — HH .000 .002 NI .000 .001 NI .000 .005 NI 
BW - HH .009 .179 .696 1.000 ‚229 1.000 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. Korr. Sig.: korrigierte Signifikanz. 
Gr. Beein.: größere Beeinträchtigung in dem jeweiligen Bundesland. 
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Entsprechend der mittleren Ränge für die Items Q13/1, Q13/2 und Q13/3 
konnten keine signifikanten Beeinträchtigungen für Hamburg und Baden- 
Württemberg ermittelt werden, so dass für diese Bundesländer weniger Beein- 
trächtigungen angenommen werden können. Im Ländervergleich konnten bei 
gemeinsamer Betrachtung der drei Items sieben signifikante Ergebnisse bezüg- 
lich beschriebener höherer Beeinträchtigungen für Niedersachsen, fünf für 
Nordrhein-Westfalen, je vier für Rheinland-Pfalz und Schleswig-Holstein und 
drei für Hessen berechnet werden. Für diese Länder sind Beeinträchtigungen 
anzunehmen, für Niedersachsen bei jeder der drei Items. 

Die Auswertung, getrennt nach Kontroll- und Versuchsgruppe, wurde für 
vier Bundesländer mit einer akzeptablen Fallzahl vorgenommen und ebenfalls 
mit dem Kruskal-Wallis-Test geprüft. Für die Versuchsgruppe liegen Signifi- 
kanzen für alle drei Items vor (Q13/1: H(3) = 21.61, p < .001; Q13/2: H(13) = 
33.59, p < .001; Q13/3: H(3) = 20.65, p < .001). 

Für die Kontrollgruppe liegt eine Signifikanz von H(3) = 11.06, p = .011 für 
Q13/2 vor, jedoch nicht für Q13/1 (H(3) = 4.43, p = .219) und Q13/3 (H(3) = 
4.30, p = .231). Unterschiedlich häufig im Vergleich zwischen den Bundeslän- 
dern stehen in der Versuchsgruppe Tests nicht zur Verfügung (Q13/1), sind 
unvollständig (Q13/2) oder es fehlen Formulare (Q13/3). In der Kontrollgruppe 
gibt es Unterschiede zwischen den Bundesländern bei der Frage nach fehlenden 
Formularen (Q13/2). In der Tabelle 48 werden die Unterschiede mit Hilfe der 
mittleren Ränge ersichtlich. 


Tabelle 48. Mittlere Ränge der Versuchsgruppe für Q13/1(Tests fehlen), 013/2 (Tests 
unvollständig), Q13/3 (Formulare fehlen) und der Kontrollgruppe für 013/2. 


Baden- Niedersachsen Nordrhein- Rheinland-Pfalz 
Württemberg Westfalen 
Versuchsgruppe m.RangQ13/1 462.77 415.78 368.32 384.85 
m.RangQ13/2 473.42 325.43 392.03 367.38 
m. Rang Q13/3 461.00 357.65 379.33 436.82 
Kontrollgruppe* m. Rang Q13/2 62.27 44.52 50.71 32.39 


Anmerkung. m. Rang = mittlerer Rang; * Angaben über mittlere Ränge für Q13/1 und Q13/3 entfallen, da 
keine Signifikanzen vorhanden sind. 


In der Versuchsgruppe stehen nordrhein-westfälischen SonderpädagogInnen 
häufiger Tests nicht zur Verfügung (Q13/1: p < .001), sind die Testmaterialien 
häufiger unvollständig (Q13/2: p < .001) und es fehlen häufiger Formulare 
(Q13/3: p = .001) im Vergleich mit baden-württembergischen Sonderpädagogln- 
nen. Diese sind auch seltener von unvollständigen Testmaterialien betroffen 
(Niedersachsen: Q13/2: p < .001; Rheinland-Pfalz: p = .034) und seltener im 
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Vergleich mit niedersächsischen SonderpädagoglInnen von fehlenden Formula- 
ren (Q13/3: p = .001). 

In der Kontrollgruppe konnte lediglich eine Signifikanz ermittelt werden: 
baden-württembergische SonderpädagogInnen bemängeln seltener unvollstän- 
dige Testunterlagen (Q13/2: p = .012) im Vergleich zu denen aus Rheinland- 
Pfalz (siehe Tabelle 49). 


Tabelle 49. Signifikanzprüfung für Q13/1(Tests fehlen), Q13/2 (Tests unvollständig), 
013/3 (Formulare fehlen) der Vergleichsgruppe und Q13/2 der Kontrollgruppe mit 
Angaben zu den Bundesländern, für die signifikant höhere Beeinträchtigungen nach- 
gewiesen worden sind. 


BW-RP BW-NI BW-NRW RP-NI RP-NRW NI-NRW 


Versuchs- Q13/1 Sig. .078 .048 .000 ‚434 .646 .026 


u korr. Sig. .469 .288 .000 1.00 1.00 .158 
Beeintr. NRW 
Q13/2 Sig. .006 .000 .000. .275 .483 .001 
korr. Sig. .034 .000 .000 1.00 1.00 .008 
Beeintr. RP NI NRW NRW 
013/3 Sig. ‚535 .000 .000 .043 .107 .303 
korr. Sig. 1.00 .001 .001 .256 .643 1.00 
Beeintr. NI NRW 
Kontroll- Q13/2 Sig. .002 .056 .179 .129 .011 .349 
ESPRE korr. Sig. .012 .338 1.00 771 .064 1.00 
Beeintr. RP 


Anmerkungen. BW = Baden-Württemberg. NI = Niedersachsen. NRW = Nordrhein-Westfalen. RP = Rhein- 
land-Pfalz. Korr. Sig.: korrigierte Signifikanz. Beeintr.: größere Beeinträchtigung in dem jeweiligen Bundes- 
land. 


Hypothese 4.4 

H0: Es besteht kein Zusammenhang zwischen dem Bundesland und der Frei- 
heit der SonderpädagogInnen, über die Anwendung eines Intelligenztests 
zu entscheiden. 

Hl: Es besteht ein Zusammenhang zwischen dem Bundesland und der Freiheit 
der SonderpädagogInnen, über die Anwendung eines Intelligenztests zu 
entscheiden. 


Der für die Prüfung zwischen Bundesland und Q10 (Entscheiden Sie nach eige- 


nem Ermessen, Intelligenztests durchzuführen: Ja/Nein) verwendete Chi-Qua- 
drat-Test ergab eine hohe Signifikanz von y’(15, N = 847) = 88.96, p < .001. 
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Die Reduzierung auf die sieben Bundesländer mit einer akzeptablen Fallzahl 
ergibt nach der Anwendung des Chi-Quadrat-Tests ebenfalls hohe Signifikan- 
zen (x’(6, N = 800) = 88.96, p < .001; Häufigkeiten siehe Tabelle 50). 


Tabelle 50. Bundesländer-Vergleich Q10 (Entscheiden Sie nach eigenem Ermessen, 
einen Intelligenztest durchzuführen). 


Ja Nein Gesamt 

BW Anzah 76 31 107 

% innerhalb von Bundesland 71% 29% 100% 
HH Anzah 17 8 25 

% innerhalb von Bundesland 68% 32% 100% 
HE Anzah 85 9 94 

% innerhalb von Bundesland 90% 10% 100% 
NI Anzah 118 11 129 

% innerhalb von Bundesland 92% 8% 100% 
NRW Anzah 270 105 375 

% innerhalb von Bundesland 72% 28% 100% 
RP Anzah 21 22 43 

% innerhalb von Bundesland 49% 51% 100% 
SH Anzah 15 12 27 

% innerhalb von Bundesland 56% 44% 100% 
Gesamt Anzah 602 198 800 

% innerhalb von Bundesland 75% 25% 100% 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. 


Für die Analyse der signifikanten Unterschiede wurden die sieben Bundeslän- 
der mit einer akzeptablen Fallzahl jeweils in Beziehung gesetzt zu den übrigen 
Bundesländern. 

Danach haben SonderpädagogInnen aus Hessen (p < .001 x’(1, N = 847) = 
15.47, p < .001) und Niedersachsen (p < .001 y’(1, N = 848) = 25.05, p < .001) 
signifikant häufiger die Möglichkeit, selbst über die Anwendung eines Intelli- 
genztests zu entscheiden. 

Dies trifft nicht zu für rheinland-pfälzische (p < .001 x’(1, N = 848) = 14.27, 
p < .001) und für schleswig-holsteinische SonderpädagogInnen (p = .032) x’(1, 
N =849) = 4.61, p = .032. 

Bei der Gegenüberstellung von Kontroll- und Versuchsgruppe für vier Bun- 
desländer mit einer zweistelligen Fallzahl (Niedersachsen, Rheinland-Pfalz, Ba- 
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den-Württemberg, Nordrhein-Westfalen) liegen jeweils signifikante Unter- 
schiede vor. Verglichen wurde erneut mit dem Chi-Quadrat-Test nach Pearson. 
Für die Versuchsgruppe konnte ein signifikanter Unterschied von x’(3, N = 
581) = 31.63, p < .001, für die Kontrollgruppe ein signifikanter Unterschied von 
X (3, N = 72) = 8.14, p = .043 festgestellt werden. 

Der Vergleich der vier Bundesländer mit einer zweistelligen Fallzahl ermit- 
telt ein signifikantes Ergebnis für Niedersachsen: niedersächsische Sonderpäd- 
agogInnen haben sowohl in der Kontrollgruppe (y’(1, N = 72) = 5.86, p = .016) 
als auch in der Versuchsgruppe (x’(1, N = 580) = 19.49, p < .001) eine größere 
Freiheit, darüber selbst zu entscheiden, ob sie Intelligenztests durchführen. 


Hypothese 4.5 

H0: Zwischen den Bundesländern gibt es keine Unterschiede im Umgang mit 
Durchführungsregeln bei der Anwendung von Intelligenztests. 

Hl: Zwischen den Bundesländern gibt es Unterschiede im Umgang mit Durch- 
führungsregeln bei der Anwendung von Intelligenztests. 


Zur Prüfung dieser Hypothese wurde der Kruskal-Wallis-Test für folgende 
Items verwendet: Folgende Durchführungsregeln bereiten mir Schwierigkeiten: 


e Q15/1: Umkehrregeln 
e Q15/2: Abbruchregeln 
e Q15/3: Ausrechnen des Testalters 


Für kein Item kann die Nullhypothese verworfen werden nach Auswertung al- 
ler Bundesländer (Q15/1: H(15) = 21.48, p = .122; Q15/2: H(15) = 19.67, p = 
.185; Q15/3: H(15) = 21.58, p = .119). Nach der Auswertung für die sieben Bun- 
desländer mit höheren Fallzahlen ergibt sich eine Signifikanz für Q15/3 (H(6) = 
16.60, p = .010; Q15/1: H(6) = 11.26, p = .081; Q15/2: H(6) = 9.49, p = .148). 

Hessische SonderpädagogInnen gaben signifikant mehr Probleme beim 
Ausrechnen des Alters am Testtag (p = .012) im Vergleich zu denen aus Rhein- 
land-Pfalz an. 

Bei der Gegenüberstellung von Kontroll- und Versuchsgruppe für die Bun- 
desländer mit einer ausreichend hohen Fallzahl (Niedersachsen, Rheinland- 
Pfalz, Baden-Württemberg, Nordrhein-Westfalen) konnte für keines der Items 
eine Signifikanz in der Versuchsgruppe festgestellt werden (Q15/1: H(3) = 4.50, 
p = 212; Q15/2: H(3) = 2.12, p = .548; Q15/3: H(3) = 2.85, p = .415). 


110 Likert-Skala: außerordentlich (1), ziemlich (2), mittelmäßig (3), kaum (4), gar nicht (5). 
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In der Kontrollgruppe konnten Signifikanzen bei Q15/1 (H(3) = 8.87, p = 
.031) und Q15/2 (H(3) = 11.29, p = .010), bei Q15/3 lediglich eine Tendenz 
(H(3) = 6.30, p = .098) berechnet werden. 

Rheinland-pfälzische SonderpädagoglInnen haben signifikant weniger Schwie- 
rigkeiten mit der Umkehrregel (Q15/1; mittlerer Rang: 44.96; p = .037) als 
nordrhein-westfälische (mittlerer Rang = 28.83) und weniger Schwierigkeiten 
mit der Abbruchregel (Q15/2; mittlerer Rang: 59.28; p = .005) als niedersächsi- 
sche (mittlerer Rang: 32.38). 

Bei der Frage, ob es generell einen Unterschied zwischen Kontroll- und Ver- 
suchsgruppe gibt, ermittelte der Mann-Whitney-U-Test keinen Unterschied 
zwischen beiden Gruppen (Q15/1: U(883, 73) = 29934.00, z = -1.06, p = .291; 
Q15/2: U(1025, 101) = 49125.50, z = -0.901, p = .367; Q15/3: U(1031, 99) = 
48702.00, z = -0.875, p = .381). 


Hypothese 4.6 

H0: Zwischen den Bundesländern gibt es keine Unterschiede bei den empfun- 
denen Schwierigkeiten bei der Anwendung von Intelligenztests. 

Hl: Zwischen den Bundesländern gibt es Unterschiede bei den empfundenen 
Schwierigkeiten bei der Anwendung von Intelligenztests. 


Geprüft wurde mit einer einfaktoriellen Varianzanalyse (ANOVA), da stetige 
Variablen vorliegen. Im Gegensatz zum Kruskal-Wallis-Test ist eine ANOVA 
weniger konservativ und besser geeignet, tatsächliche Unterschiede zu entde- 
cken. 

In Tabelle 51 kann festgestellt werden, dass die Mittelwerte für den Schwie- 
rigkeiten-Index''' nicht sehr weit auseinanderliegen von MW = 3.38 (Nieder- 
sachsen, SD = 0.60) bis MW = 3.60 (Baden-Württemberg, SD = 0.52). 

Der Levene-Test prüft, ob die Varianzen homogen sind, was die Vorausset- 
zung für die Anwendung der ANOVA wäre. Die Varianzhomogenität ist gege- 
ben, da keine Signifikanz vorliegt (p = .596). Obwohl die Mittelwerte dicht zu- 
sammen liegen, ist dennoch eine Signifikanz festzustellen (F(6,950) = 2.729, p = 
.012), so dass der Grad der empfundenen Schwierigkeit bei der Anwendung 
von Intelligenztests tatsächlich vom Bundesland abhängt (siehe Tabelle 52). 

Da eine Varianzhomogenität vorliegt, konnte für die paarweisen Vergleiche 
der Tukey-Test verwendet werden. Dieser Test ist ein Posthoc-Verfahren und 
ähnelt dem t-Test, hält aber das Fehlerniveau bei ca. 5% (Hain, 2018). Zur Ver- 
meidung von Typ-I Fehlern sind die Signifikanzen korrigiert mit der Bonferro- 
ni-Korrektur. 


111 Hinweis: je geringer der Mittelwert, desto mehr Schwierigkeiten werden beschrieben. 
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Tabelle 51. Vergleich von sieben Bundesländern mit akzeptablen Fallzahlen 
für empfundene Schwierigkeiten bei der Anwendung von Intelligenztests. 


95 % Konfidenzintervall 


für MW 

N MW SD Standardfehler Untergrenze Obergrenze Min Max 
BW 130 3.6028 0.520 0.046 3.5127 3.6928 2.00 4.90 
HH 29 3.4713 0.705 0.131 3.2027 3.7398 1.00 4.45 
HE 109 3.5859 0.496 0.047 3.4918 3.6799 2.36 4.64 
NI 143 3.3821 0.598 0.050 3.2831 3.4810 1.00 4.56 
NRW 465 3.4698 0.543 0.025 3.4203 3.5193 1.00 4.73 
RP 51 3.5340 0.553 0.077 3.3786 3.6894 2.18 4.73 
SH 31 3.3972 0.440 0.079 3.2360 3.5584 2.64 4.45 


Gesamt 958 3.4892 0.550 0.018 3.4544 3.5240 1.00 4.90 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. MW = Mittelwert. SD = Stan- 
dardabweichung. Min = Minimum. Max = Maximum. 


Tabelle 52. Übersicht einfaktorielle Varianzanalyse für den Vergleich von sieben 
Bundesländern mit akzeptablen Fallzahlen und empfundenen Schwierigkeiten. 


Quadratsumme df Mittel der Quadrate F Signifikanz 
Zwischen den Gruppen 4.890 6 815 2.729 .012 
Innerhalb der Gruppen 283.678 950 .299 
Gesamt 288.568 956 


Anmerkungen. df = Freiheitsgrad. F = Teststatistik. 


Tabelle B3 verdeutlicht die Ergebnisse der Signifikanzprüfung. Baden-Würt- 
temberg beschreibt weniger Schwierigkeiten im Vergleich mit Niedersachsen 
(p = .016). Im Vergleich zwischen Niedersachsen und Hessen beschreiben hes- 
sische SonderpädagogInnen tendenziell weniger Schwierigkeiten (p = .053). 

Beim Gegenüberstellen zwischen Kontroll- und Versuchsgruppe mit der 
einfaktoriellen Varianzanalyse ANOVA konnte unter Einbezug der vier Bun- 
desländer mit mindestens zweistelliger Fallzahl für die Versuchsgruppe eine Si- 
gnifikanz von F(3, 694) = 3,761, p = .011, für die Kontrollgruppe keine Signifi- 
kanz (F(3, 86) = 1.221, p = .307) ermittelt werden. Für beide Gruppen ermittelte 
der Levene-Test eine Varianzhomogenität (Kontrollgruppe: p = .534; Versuchs- 
gruppe: p = .971), so dass als Post-Hoc Verfahren der Tukey-Test genauere An- 
gaben über Unterschiede zwischen den vier Bundesländern berechnet. 
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In der Versuchsgruppe gaben niedersächsische SonderpädagogInnen signi- 
fikant mehr Schwierigkeiten im Vergleich mit denen aus Baden-Württemberg 
(p = .007) und SonderpädagogInnen aus Nordrhein-Westfalen gegenüber de- 
nen aus Baden-Württemberg (p = .048; siehe Tabelle B4) an. 

Der t-Test für unabhängige Stichproben ermittelte abschließend, ob die 
Kontroll- oder Versuchsgruppe mehr Schwierigkeiten empfindet bei der An- 
wendung von Intelligenztests unter Berücksichtigung der Gesamtfallzahl. Da 
der Levene-Test keine Varianzgleichheit festgestellt hat, wurde das Ergebnis des 
Welch-Tests ermittelt. ProbandInnen aus der Kontrollgruppe (MW = 3,3701; 
SD = .754) empfinden tendenziell mehr Schwierigkeiten bei der Anwendung 
von Intelligenztests gegenüber denen aus der Versuchsgruppe (MW = 3.5027; 
SD = .540; t(111.472) = 1.719, p = .088). 


Hypothese 4.7 

HO: Es gibt keinen Unterschied zwischen den Bundesländern bei der zur Ver- 
fügung stehenden Zeit für die Anwendung eines Intelligenztests. 

Hl: Es gibt Unterschiede zwischen den Bundesländern bei der zur Verfügung 
stehenden Zeit für die Anwendung eines Intelligenztests. 


Folgende Items waren für die Hypothesenprüfung vorgesehen (Q28): Bitte be- 
werten Sie folgende Aussagen: 


e Q28/1: Im Rahmen meiner Arbeit steht mir zu wenig Vorbereitungszeit für 
das Lernen eines normierten Tests zur Verfügung. 

e 0Q28/2: Heutzutage habe ich weniger Zeit für die Anwendung eines Intelli- 
genztests. 

e Q28/3: Heutzutage habe ich weniger Zeit für die Durchführung eines sonder- 
pädagogischen Gutachtens. 

e Q28/4: Steht mir nicht genügend Vorbereitungszeit zur Verfügung für einen 
Test, bereite ich mich in der Freizeit vor. 


Die vier Items wurden geprüft mit dem Kruskal-Wallis-Test. Für jedes Item 
sind signifikante Unterschiede ermittelt worden bei Einbezug der Gesamtstich- 
probe (Q28/1: H(15) = 27.41, p = .026, Q28/2: H(15) = 30.08, p = .012, Q28/3: 
H(15) = 53.76, p < .001, Q28/4: H(15) = 35.02, p < .001). 

Unter Einbezug der sieben Bundesländer mit einer akzeptablen Fallzahl sind 
die Signifikanzen noch eindeutiger (Q28/1: H(6) = 22.84, p = .001; Q28/2: H(6) = 
18.03, p = .006; Q28/3: H(6) = 40.09, p < .001; Q28/4: H(6) = 22.08, p = .001). 

Grundlage für die folgende Analyse sind die nach der Bonferroni-Korrektur 
angepassten Signifikanzangaben, dennoch werden die nicht korrigierten Signi- 
fikanzen ebenfalls dargestellt, um Hinweise auf Unterschiede anzudeuten. Der 


203 


Vergleich der mittleren Ränge ist in Tabelle 53 dargestellt, die Ergebnisse der 
Signifikanzprüfungen in Tabelle 54 und Tabelle 55. 

Die mittleren Ränge zeigen höhere, bzw. niedrigere Problematiken an. Die 
fünfstufige Ratingskala lautete völlig richtig (1), ziemlich richtig (2), unentschie- 
den (3), ziemlich falsch (4) und falsch (5). 


Tabelle 53. Mittlere Ränge für Q28/1, 028/2, Q28/3, Q28/4 im Bundesländer- 
vergleich. 


BW HH HE NI NRW RP SH 
028/1 (wenig 598.94 549.76 609.41 608.95 515.76 605.98 584.94 
Vorbereitungszeit) 
028/2 (wenig 595.99 491.36 617.99 486.41 554.15 591.34 552.44 


Anwendungszeit 


Q28/3 (wenig Zeit 552.82 398.53 652.26 469.71 559.67 654.30 566.49 
für Gutachten) 


Q28/4 (Vorbereitung 584.89 610.53 633.97 566.37 531.02 537.47 513.39 


in Freizeit) 


Anmerkungen. Farblich markiert sind die beiden höchsten (hellgrau) und niedrigsten (grau) Ergebnisse. 
Niedriger mittlerer Rang = höhere Beeinträchtigung. BW = Baden-Württemberg. HH = Hamburg. HE = 
Hessen. NI = Niedersachsen. NRW = Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig- 
Holstein. 


SonderpädagogInnen aus Nordrhein-Westfalen (mittlerer Rang = 515,76) und 
Hamburg (mittlerer Rang = 549,76) hatten den höchsten Zustimmungsgrad auf 
die Frage, ob zu wenig Vorbereitungszeit für das Lernen eines Intelligenztests 
zur Verfügung steht (Q28/1); hessische (mittlerer Rang = 609,41) und nieder- 
sächsische (mittlerer Rang = 608,95) beantworteten diese Frage am wenigsten 
zustimmend. 

Interessant könnte eine genauere Analyse in der anschließenden Diskussion 
aus dem Ergebnis für hamburgische SonderpädagoglInnen resultieren. Denn 
neben der ebenfalls hohen Zustimmung auf die Frage, ob zu wenig Zeit für die 
Anwendung eines Tests zur Verfügung steht (Q28/2: mittlerer Rang = 491,36), 
und auf die Frage, ob es generell zu wenig Zeit für die Erstellung von Gutachten 
gibt (Q28/3: mittlerer Rang = 398,53), stimmt diese Personengruppe auf die 
Frage, ob in der Freizeit die Tests vorbereitet werden würden, neben hessischen 
SonderpädagogInnen (mittlerer Rang = 633, 97) am wenigsten zu. 

Unterschiedlich antworten auch die SonderpädagoglInnen aus Niedersach- 
sen. Neben der hohen Zustimmung über zu wenig Zeit für die Anwendung ei- 
nes Tests (mittlerer Rang = 486,41) und zu wenig Zeit für die Gutachtenerstel- 
lung (mittlerer Rang = 469,41) gab es wenig Zustimmung auf die Frage nach zu 
wenig Vorbereitungszeit zum Lernen eines Tests. 
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Hessische Lehrkräfte stimmten bei allen vier Fragen am wenigsten (Q28/1: 
mittlerer Rang = 609,41, Q28/2: mittlerer Rang = 617,99; Q28/4: mittlerer Rang 
= 633,97) bzw. am zweitwenigsten zu (Q28/3: mittlerer Rang = 652,26). 


Tabelle 54. Signifikanzprüfung mit dem Kruskal-Wallis-Test für Q28/1 (weniger 
Vorbereitungszeit) und Q28/2 (wenig Zeit für Anwendung). 


028/1 Q28/2 
Sig. Korr. Sig. gr. Beeintr. Sig. Korr. Sig. gr. Beeintr 
NRW - HH .538 1.000 .263 1.000 
NRW - SH ‚191 1.000 ‚975 1.000 
NRW - BW .003 .068 .147 1.000 
NRW - RP .031 .654 ‚383 1.000 
NRW -NI .001 .014 NRW .015 .315 
NRW - HE .002 .035 NRW .035 .738 
HH - SH .635 1.000 418 1.000 
HH - BW 405 1.000 .082 1.000 
HH - RP .399 1.000 ‚140 1.000 
HH - NI .313 1.000 .934 1.000 
HH - HE .319 1.000 .037 785 
SH - BW .806 1.000 453 1.000 
SH -RP 746 1.000 ‚555 1.000 
SH-NI ‚671 1.000 ‚251 1.000 
SH - HE ‚672 1.000 ‚265 1.000 
BW - RP .881 1.000 .922 1.000 
BW -NI .772 1.000 .002 .039 NI 
BW - HE .774 1.000 .554 1.000 
RP -NI .949 1.000 .026 547 
RP - HE 943 1.000 584 1.000 
NI — HE .990 1.000 .000 .006 NI 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. Korr. Sig.: korrigierte Signifikanz. 
Gr. Beeintr.: größere Beeinträchtigung in dem jeweiligen Bundesland. 


Auf die Frage, ob im Rahmen der Arbeit zu wenig Vorbereitungszeit für das 
Lernen eines normierten Tests zur Verfügung steht (Q28/1), bejahen dies signi- 
fikant mehr SonderpädagogInnen aus Nordrhein-Westfalen gegenüber denen 
aus Niedersachsen (p = .014) und aus Hessen (p = .035). Eine Tendenz gibt es 
gegenüber denen aus Baden-Württemberg (p = .068). 
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Auf die Frage, ob heutzutage weniger Zeit für die Anwendung eines Tests 
zur Verfügung stehe, bejahten dies signifikant häufiger niedersächsische Son- 
derpädagogInnen gegenüber denen aus Baden-Württemberg (p = .039) und 
Hessen (p = .006). 


Tabelle 55. Signifikanzprüfung mit dem Kruskal-Wallis-Test für Q28/3 (wenig Zeit für 
Gutachten) und Q28/4 (Vorbereitung in Freizeit). 


028/3 Q28/4 
Sig. Korr. Sig. gr. Beeintr. Sig. Korr. Sig. gr. Beeintr. 
HH - NI .229 1.000 .369 1.000 
HH - BW .010 ‚201 .605 1.000 
HH - NRW .004 .079 .085 1.000 
HH - SH .025 ‚516 .118 1.000 
HH - HE .000 001 HH .640 1.000 
HH - RP .000 .003 HH .192 1.000 
NI - BW .017 .363 523 1.000 
NI — NRW .001 .024 NI .123 1.000 
NI - SH .090 1.000 .264 1.000 
NI- HE .000 .000 NI .024 ‚513 
NI- RP .000 .002 NI „460 1.000 
BW - NRW .810 1.000 .023 481 
BW - SH .812 1.000 .135 1.000 
BW-HE .007 ‚145 .109 1.000 
BW - RP .033 .690 .230 1.000 
NRW - SH .898 1.000 .691 1.000 
NRW - HE .002 .043 NRW .000 .001 NRW 
NRW - RP .026 548 ‚855 1.000 
SH - HE ‚141 1.000 .013 ‚269 
SH -RP 181 1.000 .659 1.000 
HE - RP .966 1.000 .017 ‚351 


Anmerkungen. BW = Baden-Württemberg. HH = Hamburg. HE = Hessen. NI = Niedersachsen. NRW = 
Nordrhein-Westfalen. RP = Rheinland-Pfalz. SH = Schleswig-Holstein. Korr. Sig.: korrigierte Signifikanz. 
Gr. Beeintr.: größere Beeinträchtigung in dem jeweiligen Bundesland. 


Auf die Frage, ob heutzutage weniger Zeit für die Durchführung eines sonder- 
pädagogischen Gutachtens zur Verfügung steht (Q28/3), bejahten dies signifi- 
kant häufiger SonderpädagogInnen aus Hamburg gegenüber denen aus Hessen 
(p = .001) und aus Rheinland-Pfalz, SonderpädagogInnen aus Niedersachsen 
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gegenüber denen aus Nordrhein-Westfalen (p = .024), aus Hessen (p < .001) 
und aus Baden-Württemberg (p = .002) sowie SonderpädagogInnen aus Nord- 
rhein-Westfalen gegenüber denen aus Hessen (p = .017). 

Auf die Frage, ob die Vorbereitungszeit für die Anwendung eines Tests in 
der Freizeit vorgenommen wird, wenn ansonsten nicht genügend Zeit zur Ver- 
fügung steht (Q28/4), bejahten diese Frage signifikant häufiger Sonderpäd- 
agogInnen aus Nordrhein-Westfalen gegenüber denen aus Hessen (p = .001). 

Auch für diese Hypothesenprüfung ist eine Gegenüberstellung zwischen 
Kontroll- und Versuchsgruppe sinnvoll, da die Kontrollgruppe als repräsentati- 
ver für die Gesamtheit der SonderpädagogInnen angenommen wird. Die Prü- 
fung mit dem Kruskal-Wallis-Test für die vier in Frage kommenden Bundes- 
länder mit einer zweistelligen Fallzahl (Niedersachsen, Rheinland-Pfalz, Baden- 
Württemberg, Nordrhein-Westfalen) berechnete folgende Ergebnisse: 

In der Versuchsgruppe gab es bei Q28/1 (H(3) = 13,37, p = .004), Q28/2 
(H(3) = 12.34, p = .006) und Q28/3 (H(3) = 12.14, p = .007) signifikante Ergeb- 
nisse, bei Q28/4 jedoch nur eine Tendenz (H(3) = 7.15, p = .067). In der Kon- 
trollgruppe gab es eine Signifikanz bei Q28/3 (H(3) = 10.74, p = .013), nicht je- 
doch bei Q28/1 (H(3) = 6.14, p = .105), Q28/2 (H(3) = 1.34, p = .720) und 
Q28/4 (H(3) = 1.531, p = .675). 

Dies bedeutet, dass es in der Kontroll- und Versuchsgruppe signifikante 
Unterschiede zwischen den vier Bundesländern bei der Frage nach der zur Ver- 
fügung stehenden Zeit für die Durchführung eines Gutachtens gibt (Q28/3: 
Heutzutage habe ich weniger Zeit für die Durchführung eines sonderpädagogi- 
schen Gutachtens) und ausschließlich in der Versuchsgruppe signifikante Un- 
terschiede bei der Frage nach zu wenig Vorbereitungszeit beim Lernen eines 
Tests (Q28/1) und zu wenig Zeit bei der Anwendung eines Tests (Q28/2). Ta- 
belle 56 zeigt den Vergleich der mittleren Ränge, Tabelle 57 die Ergebnisse der 
Signifikanzprüfung. Keine signifikanten Unterschiede gibt es in beiden Grup- 
pen bei der Frage nach der Vorbereitung für das Lernen der Tests in der Frei- 
zeit (Q28/4: Steht mir nicht genügend Vorbereitungszeit zur Verfügung für einen 
Test, bereite ich mich in der Freizeit vor.). 


Tabelle 56. Q28/1, Q28/2, Q28/3, Q28/4: mittlere Ränge Bundesländervergleich. 


BW NI NRW RP 
Versuchsgruppe Q28/1 (wenig Vorbereitungszeit) 446.72 444.68 386.08 437.33 
Q28/2 (wenig Anwendungszeit) 444.71 351.56 410.71 422.11 


028/3 (wenig Zeit für Gutachten) 417.67 346.65 416.09 444.83 


Kontrollgruppe 0Q28/3 (Vorbereitung in Freizeit) 41.35 43.29 50.06 68.58 


Anmerkungen. Niedriger mittlerer Rang = höhere Beeinträchtigung. BW = Baden-Württemberg. NI = 
Niedersachsen. NRW = Nordrhein-Westfalen. RP = Rheinland-Pfalz. 
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Tabelle 57. Signifikanzprüfung mit dem Kruskal-Wallis-Test für die Versuchsgruppe 
(028/1, 028/2, Q28/3) und für die Kontrollgruppe (028/3). 


BW-RP BW-NI BW-NRW RP-NI RP-NRW NI-NRW 


Versuchsgruppe Q28/1 Sig. .812 .940 .005 .852 .154 .006 


korr. Sig. 1.00 1.00 .028 1.00 .925 .038 
Beeintr. NRW NRW 
Q28/2 Sig. .573 .001 .120 .079 .756 .007 
korr. Sig. 1.00 .004 .722 .473 .100 .041 
Beeintr. NI NI 
Q28/3 Sig. .498 .009 .942 .014 .433 .001 
korr. Sig. 1.00 .053 1.00 .086 1.00 .008 
Beeintr. (NI) (NI) NI 
Kontrollgruppe Q28/3 Sig. .007 .837 .323 .003 .018 .328 
korr. Sig. .043 1.00 1.00 .018 .107 1.00 
Beeintr. BW NI 


Anmerkungen. BW = Baden-Württemberg. NI = Niedersachsen. NRW = Nordrhein-Westfalen. RP = Rhein- 
land-Pfalz. Korr. Sig.: korrigierte Signifikanz. Gr. Beeintr.: größere Beeinträchtigung in dem jeweiligen 
Bundesland. Q28/1 = wenig Vorbereitungszeit. Q28/2 = wenig Anwendungszeit. Q28/3 = wenig Zeit für 
Gutachten = Q28/3 = Vorbereitung in Freizeit. 


Nordrhein-westfälische SonderpädagogInnen beschrieben in der Versuchs- 
gruppe signifikant weniger zur Verfügung stehende Zeit zum Lernen eines 
Tests (Q28/1) gegenüber denen aus Baden-Württemberg (p = .028) und Nie- 
dersachsen (p = .038). Niedersächsische SonderpädagogInnen beschrieben we- 
niger zur Verfügung stehende Zeit für die Anwendung eines Tests (Q28/2) ge- 
genüber denen aus Baden-Württemberg (p = .004) und Nordrhein-Westfalen 
(p = .041) und ebenfalls gegenüber denen aus Nordrhein-Westfalen weniger zur 
Verfügung stehende Zeit für das Schreiben eines Gutachtens (Q28/3; p = .008). 

In der Kontrollgruppe beschrieben baden-württembergische Sonderpäd- 
agogInnen weniger zur Verfügung stehende Zeit für das Schreiben eines Gut- 
achtens gegenüber denen aus Rheinland-Pfalz (p = .043) und für die gleiche 
Frage SonderpädagogInnen aus Niedersachsen ebenfalls gegenüber denen aus 
Rheinland-Pfalz (p = .018). 

Generell und unter Einbezug der Gesamtstichprobe kann kein Unterschied 
zwischen der Kontroll- und Versuchsgruppe ermittelt werden. Der Mann- 
Whitney-U-Test berechnete nicht signifikante Ergebnisse für Q28/1 (U(1087, 
113) = 60778.50, z = -0.191, p = .849), Q28/2 (U(1083, 112) = 59455.50, z = 
-0.353, p = .724), Q28/3 (U(1082, 113) = 60632.00, z = -0.149, p = .882) und 
Q28/4 (U(1086, 112) = 59638.00 und z = -0.421, p = .674). 
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5.4.5 Zusammenhänge zwischen Alter, empfundenen 
Schwierigkeiten und Anwendung der Tests 


Hypothese 5.1 

H0: Es gibt keinen Zusammenhang zwischen dem Alter der TesterInnen und 
den empfundenen Schwierigkeiten bei der Anwendung von Intelligenz- 
tests. 

Hl: Je älter die TesterInnen sind, desto weniger Schwierigkeiten werden bei 
der Anwendung von Intelligenztests empfunden. 


Der Zusammenhang zwischen zunehmendem Alter und dem Schwierigkeiten- 
Index wurde mit der Pearson-Korrelation für stetige Variablen geprüft. Der 
Korrelationskoeffizient nach Pearson lag bei r(1026) = .058, p = .065. Das Vor- 
zeichen des Korrelationskoeffizienten ist positiv, daraus resultiert aus dem 
gleichgerichteten Ergebnis ein höherer Wert im Schwierigkeiten-Index bei zu- 
nehmendem Alter, da im Fall gerichteter Hypothesen der zweiseitige p-Wert 
halbiert werden kann (Gehring & Weins, 2009, S. 285f.) und somit p = .033 er- 
gibt. 

Da ein höherer Wert im Schwierigkeiten-Index gleichbedeutend mit weni- 
ger Schwierigkeiten einhergeht, bedeutet das Ergebnis, dass tatsächlich mit zu- 
nehmendem Alter weniger Schwierigkeiten bei der Anwendung von Intelli- 
genztests auftreten und es von Vorteil ist, älter zu sein. 

Beim Vergleich zwischen Kontroll- und Versuchsgruppe sind die Ergebnis- 
se für die Versuchsgruppe ähnlich bei der ungerichteten Prüfung (r(925) = .057, 
p = .083); in der Kontrollgruppe ist hingegen weder eine Tendenz noch eine 
Signifikanz festzustellen (r(99) = .062, p = .537). In der Kontrollgruppe kann 
kein Zusammenhang zwischen erlebten Schwierigkeiten und dem Alter attes- 
tiert werden. 


Hypothese 5.2 

H0: Es gibt keinen Zusammenhang zwischen dem Alter der SonderpädagoglIn- 
nen und der Anwendung der Testverfahren. 

Hl: Es gibt einen Zusammenhang zwischen dem Alter der SonderpädagoglIn- 
nen und der Anwendung der Testverfahren. 


Der Zusammenhang zwischen dem Alter und der Anwendung der Tests (Q8: 
Wenn ich teste, nehme ich folgende Tests (...): immer (1), oft (2), gelegentlich (3), 
selten (4), nie (5)) wurde mit der Spearman-Korrelation für ordinale Daten ge- 
prüft. 

Bei den signifikanten Ergebnissen sind alle Vorzeichen negativ. Daraus re- 
sultiert, dass bei den vorliegenden Signifikanzen mit zunehmendem Alter die 
Tests häufiger durchgeführt werden. 
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Tatsächlich stehen die beiden ältesten Verfahren K-ABC (rSp(696)= -.196, 
p < .001) und SON-R 5%-17 (rSp (763) = -.138, p < .001) in einem Zusam- 
menhang mit dem Alter; je älter, desto häufiger werden diese Tests angewendet. 
Um ein Verfahren als alt oder veraltet zu bezeichnen, sind die Gestaltung der 
Stimuli und vor allem die letztmalig erstellte Normstichprobe maßgeblich. Die 
K-ABC verfügt über veraltete Stimuli™? und wurde 1986-1989 geeicht (Rollett & 
Preckel, 2011). Ebenfalls trifft dies für den SON-R 5%-17 zu, deren ausschließ- 
lich in den Niederlanden vorgenommene Normierung von 1984/1985 Grund- 
lage der Auswertung ist. 

Doch die Daten sollten dennoch nicht zu einer voreiligen Annahme der Al- 
ternativhypothese verleiten, denn entweder gab es keinen Unterschied zwischen 
Anwendung und Alter, oder aber ältere SonderpädagogInnen führen generell 
häufiger die Verfahren durch, sowohl veraltete als auch aktuellere Verfahren. 
Für den aktuellsten Test, die KABC-I (Erscheinung: 2015, Normierung: 2013/ 
2014) gibt es keine Signifikanz (rSp (773) = .009, p = .795), ebenso wenig für die 
IDS (rSp (678) = .051, p = .187) und für den WNV (rSp (608) = .036, p = .372). 
Für alle anderen Tests ist festzustellen, dass ältere SonderpädagogInnen generell 
häufiger die Verfahren anwenden (CFT1/CFT1-R: rSp (674) = -.202; p < .001, 
CFT2O-R: rSp (638) = -.296; p < .001, WISC-IV: rSp (766) = -.180; p < .001, 
WPPSI-IH: rSp (638) = —.129; p = .001, SON-R 2%-7: rSp (755) = -.174; p < 
.001, SON-R 6-40: rSp (728) = —.128; p = .001). 

Beim Vergleich zwischen Kontroll-, Versuchs- und Gesamtgruppe (siehe 
Tabelle 58) sind die Unterschiede zwischen Versuchs- und Gesamtgruppe mar- 
ginal. Leichte Veränderungen in den Signifikanzen liegen bei der KABC-I 
(Gesamtgruppe: rSp (773) = .009, p = .795; Versuchsgruppe: rSp (716) = .023, p 
= 533.), dem SON-R 6-40 (Gesamtgruppe: rSp (728) = -.128; p = .001; Ver- 
suchsgruppe: rSp (668) = -.109; p = .005) und dem SON-R 5%-17 (Gesamt- 
gruppe: rSp (763) = -.138, p < .001; Versuchsgruppe: rSp (690) = —.124, p = 
.001) vor, doch die aus den Ergebnissen resultierenden Aussagen bleiben gleich. 

In der Kontrollgruppe werden signifikant häufiger der CFTV/CFTI-R (rSp 
(64), = -.542; p < .001), der CFT20-R (rSp (64) = -.481; p < .001), der SON-R 
2%-7 (rSp (64) = -.322; p = .008), der SON-R 5%-17 (rSp (71) = —.277; p = 
.018) und der SON-R 6-40 (rSp (58) = -.342; p = .007) durchgeführt, je älter die 
Sonderpädagoglnnen sind. 


112 Z.B. ein Bild von Charlie Chaplin, der Anfang der 80er sicherlich bekannter war bei den 
Kindern und Jugendlichen der Normstichprobe damals. 
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Tabelle 58. Spearman-Korrelation zwischen der Anwendung der Testverfahren (08) 
und dem Alter. 


Gesamtgruppe Versuchsgruppe Kontrollgruppe 

K-ABC Korrelationskoeffizient -.196** -.198** -.183 

Sig. .000 .000 .188 

N 698 645 53 
KABC-II Korrelationskoeffizient .009 .023 —.146 

Sig. .795 .533 ‚279 

N 775 718 57 
CFT1/1-R Korrelationskoeffizient —.202** -.176** —,542** 

Sig. .000 .000 .000 

N 876 810 66 
CFT20-R Korrelationskoeffizient —.296** -,277** —.481** 

Sig. .000 .000 .000 

N 840 774 66 
WISC-IV Korrelationskoeffizient -.180** —.174** —.215 

Sig. .000 .000 ‚115 

N 768 713 55 
WPPSI-III Korrelationskoeffizient —.129** —.138** .002 

Sig. .001 .001 .987 

N 640 592 48 
WNV Korrelationskoeffizient .036 .044 -.019 

Sig. .372 .298 .901 

N 610 566 44 
SON-R 212-7 Korrelationskoeffizient —.174** —.161** —.322** 

Sig. .000 .000 .008 

N 757 691 66 
SON-R 52-17 Korrelationskoeffizient -.138** —.124** —.277 

Sig. .000 .001 .018 

N 765 692 73 
SON-R 6-40 Korrelationskoeffizient —.128** —.109** —.342** 

Sig. .001 .005 .007 

N 730 670 60 
IDS Korrelationskoeffizient .051 .048 .184 

Sig. .187 .230 .216 

N 680 633 47 


Anmerkung. ** Korrelation ist auf 0,01 Niveau signifikant (zweiseitig). Sig. = signifikant. 
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5.4.6 Unterschiede zwischen Geschlecht und empfundenen 
Schwierigkeiten bei der Anwendung der Tests 


Hypothese 6 

H0: Es gibt einen Unterschied zwischen den Geschlechtern und den empfun- 
denen Schwierigkeiten bei der Anwendung von Intelligenztests. 

Hl: Es gibt keinen Unterschied zwischen den Geschlechtern und den empfun- 
denen Schwierigkeiten bei der Anwendung von Intelligenztests. 


Die Prüfung wurde mit dem t-Test durchgeführt, da die Werte für den Schwie- 
rigkeiten-Index stetig und für das Geschlecht dichotom sind. 

Der Unterschied der Mittelwerte im Schwierigkeiten-Index von den Frauen 
(MW = 3.46) und den Männern (MW = 3.61) ist signifikant. Der Levene-Test 
ermittelt eine Verletzung der Varianzhomogenität (p = .021), so dass die Prü- 
fung unter der Bedingung nicht gleicher Varianzen mit dem Welch-Test vorge- 
nommen wurde. Es liegt eine hohe Signifikanz von 1t(433.744) = -4.005, p < 
.001 vor. Auch wenn der tatsächliche Unterschied in den Mittelwerten nicht 
sehr hoch ist und auch wenn angenommen werden kann, dass die Signifikanz 
trotz der geringen Unterschiede in den Mittelwerten auch auf Grund der sehr 
großen Stichprobe vorliegt, ist das Ergebnis eindeutig: Männer beschreiben 
signifikant weniger Schwierigkeiten bei der Anwendung von Intelligenztests als 
Frauen. 

Bei der Gegenüberstellung zwischen Kontroll- und Versuchsgruppe liegt in 
der Versuchsgruppe bei vorliegender Varianzgleichheit eine Signifikanz von 
t(925) = -3.487, p = .001 vor: Männer (MW = 3.617) beschreiben weniger 
Schwierigkeiten als Frauen (MW = 3.469). 

In der Kontrollgruppe liegt bei ungleicher Varianz und dem daraus resultie- 
renden Welch-Test eine Tendenz vor von t(98.994) = 1.684, p = .095: Männer 
(MW = 3,508) beschreiben tendenziell weniger Schwierigkeiten als Frauen 
(MW = 3.341). 


5.4.7 Zusammenhänge zwischen Schwierigkeiten bei der 
Anwendung der Tests und der universitären Ausbildung 


Hypothese 7.1 

H0: Es gibt keinen Zusammenhang zwischen der Anzahl an besuchten universi- 
tären Seminaren zur Testdiagnostik und dem Ausmaß an erlebten Schwie- 
rigkeiten bei der Anwendung von Intelligenztests. 

Hl: Es gibt einen Zusammenhang zwischen der Anzahl an besuchten universi- 
tären Seminaren zur Testdiagnostik und dem Ausmaß an erlebten Schwie- 
rigkeiten bei der Anwendung von Intelligenztests. 
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Konkrete Problematiken erfragen Q14/1, Q14/2, Q14/3, Q15/1, Q15/2, Q15/3, 
die aus Gründen der Übersichtlichkeit vorgestellt werden: 


Welche dieser Veränderungen haben Sie schon einmal vorgenommen? 

e Q14/1: Durchführungszeiten geändert (z.B. nach Ablauf der regulären 
Durchführungszeit/Item einen Punkt gegeben bei richtiger Antwort)? 

e Q14/2: Durchführungszeit ganz weggelassen? 

e Q14/3: Rückmeldungen gegeben, wenn diese nicht vorgesehen waren (z.B. 
richtig oder hast du richtig gelöst)? 


Folgende Durchführungsregeln bereiten mir Schwierigkeiten: 
e Q15/1: Umkehrregeln 

e Q15/2: Abbruchregeln 

e Q15/3: Ausrechnen des Testalters 


Geprüft wird ebenfalls Q28/5 (Mir fällt die Durchführung von Intelligenztests 
leicht. (völlig richtig (1), ziemlich richtig (2), unentschieden (3), ziemlich falsch 
(4) und falsch (5)''°). Die Items aus Q14 konnten fünfstufig mit immer (1), oft 
(2), gelegentlich (3), selten (4), nie (5); die Items von Q15 fünfstufig mit außer- 
ordentlich (1), ziemlich (2), mittelmäßig (3), kaum (4), gar nicht (5) beantwortet 
werden. 

Geprüft wurde mit der Spearman-Korrelation zwischen diesen sieben Items 
und den Angaben zu den besuchten universitären Seminaren bzw. Vorlesungs- 
reihen (Q21; keine, 1, 2, 3, 4, mehr als 4). 

Q14 fragt nach bewusst vorgenommenen und die Durchführungsobjekti- 
vität gefährdenden Abweichungen in der Durchführung von Intelligenztests. 
Diese stehen nicht im direkten Zusammenhang mit Inhalten der universitären 
Ausbildung. Da es sich aber um Problematiken bei der Anwendung der Tests 
handelt, soll ein Zusammenhang ergebnissoffen nicht ausgeschlossen werden. 

Es sind keine signifikanten Unterschiede zwischen der Anzahl belegter Se- 
minare und der Änderung von Durchführungsregeln (Q14/1: rSp(991) = .010; p = 
.756), dem bewussten Weglassen von Durchführungszeiten (Q14/2: rSp(986) = 
-.016; p = .616) und dem Geben unerlaubter Feedbacks (Q14/3: rSp(996) = 
.007; p = .817) festgestellt worden. 

Q15 fragt nach Schwierigkeiten im Umgang mit grundlegenden Anwen- 
dungsregeln. Diese stehen in einem Zusammenhang zwischen der Anzahl be- 
legter Seminare und dem Grad der angegebenen Schwierigkeit, sowohl für 
Q15/1 (Umkehrregeln: rSp(820) = .074; p = .035), Q15/2 (Abbruchregeln: 
rSp(962) = .093; p = .004) als auch für Q15/3 (Testalter berechnen: rSp(970) = 


113 Anmerkung: im Gegensatz zu den anderen Items liegt hier eine andere Polung vor. 
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.126; p < .001). Je mehr Seminare besucht worden sind, desto weniger Schwie- 
rigkeiten mit der Umkehr- und Abbruchregel und mit dem Ausrechnen des 
Testalters am Testtag werden erlebt. 

Einen ebenfalls signifikanten Zusammenhang gibt es zwischen Q28/5 (Mir 
fällt die Durchführung von Intelligenztests leicht) und der Anzahl belegter Uni- 
seminare rSp(1027) = —.201; p < .001). Je mehr Uniseminare bzw. Vorlesungs- 
reihen zur Testdiagnostik belegt worden sind, desto leichter fällt Sonderpäd- 
agogInnen die Anwendung von Intelligenztests.''* 


Vergleich Kontroll-, Gesamt- und Versuchsgruppe: 

Bei der Gegenüberstellung von der Gesamt- und Versuchsgruppe gibt es bei der 
Umkehrregel (Q15/1) Unterschiede. Hier hat die Gesamtgruppe mehr Schwie- 
rigkeiten, je weniger Seminare belegt worden sind (rSp(820) = .074; p = .035), 
bei der Versuchsgruppe gibt es keinen signifikanten Unterschied (rSp(761) = 
.055; p = .128). Geringe Unterschiede gibt es zudem bei den Abbruchregeln 
(Q15/2; Gesamtgruppe: rSp(962) = .093; p = .004; Versuchsgruppe: rSp(886) = 
.080; p = .018). Die ermittelten Signifikanzen sind ansonsten zwischen Ver- 
suchs- und Gesamtgruppe in der Bedeutung ähnlich. 

In der Kontrollgruppe verändern SonderpädagogInnen weniger (sic) uner- 
laubt die Durchführungszeiten während einer Testung, je weniger Seminare be- 
legt worden sind (Q14/1: rSp(85) = -.223; p = .038) und haben tendenziell 
Schwierigkeiten mit den Umkehrregeln, je weniger Seminare belegt worden 
sind (Q15/1: rSp(57) = .247; p = .059). 

In allen drei Gruppen (siehe Tabelle 59) gibt es einen signifikanten Zusam- 
menhang zwischen Q28/5 und der Anzahl belegter Seminare (Gesamtgruppe: 
rSp(1027) = -.204; p < .001; Versuchsgruppe: rSp(934) = —.182; p < .001; Kon- 
trollgruppe: rSp(91) = -.343; p < .001). Allen SonderpädagoglInnen fällt die An- 
wendung von Intelligenztests leichter, je mehr Seminare sie belegt haben. 


Hypothese 7.2 

H0: Es gibt keinen Unterschied zwischen dem Ausmaß der in der universitären 
Ausbildung referierten Inhalte zur Testdiagnostik und den empfundenen 
Schwierigkeiten bei der Anwendung von Intelligenztests. 

Hl: Es gibt einen Unterschied zwischen dem Ausmaß der in der universitären 
Ausbildung referierten Inhalte zur Testdiagnostik und den empfundenen 
Schwierigkeiten bei der Anwendung von Intelligenztests. 


114 Hinweis: da diese Frage anders gepolt ist, bedeutet eine negative Korrelation, dass mit zu- 
nehmender Anzahl belegter Seminare die Anwendung von Intelligenztests als leichter 
empfunden wird. 
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Tabelle 59. Spearman-Korrelation Q14/1, 014/2, Q014/3, Q15/1, Q15/2, 015/3 
mit Q21 für die Gesamt-, Versuchs- und Kontrollgruppe. 


Gesamtgruppe Versuchsgruppe Kontrollgruppe 


Q14/1 Korrelationskoeffizient .010 .029 —.223 
(Zeiten anders) 

Sig. .756 .387 .038 

n 993 906 87 
Q14/2 Korrelationskoeffizient -.016 -.028 .054 
(Zeit weggelassen) 

Sig. .616 .398 .619 

n 988 901 87 
Q14/3 Korrelationskoeffizient .007 .012 —.046 
(unerlaubtes i 
Feedback) Sig. .817 .724 .677 

n 998 912 86 
015/1 Korrelationskoeffizient .074 .055 ‚247 
(Umkehrregeln) , 

Sig. .035 .128 .059 

n 822 763 59 
Q15/2 Korrelationskoeffizient .093** .080 .178 
(Abbruchregeln) k 

Sig. .004 .018 .107 

n 964 881 83 
Q15/3 Korrelationskoeffizient .126** .123** .115 
(Testalter berechnen) _ 

Sig. .000 .000 ‚298 

n 972 888 84 
Q28/5 Korrelationskoeffizient -.204** —.182** —.343** 
(Anwendung fällt i 
leicht) Sig. .000 .000 .001 

n 1029 936 93 


Anmerkung. ** Korrelation ist auf 0,01 Niveau signifikant (zweiseitig). Sig. = Signifikanz. 


Der bedingt durch die aus der großen Fallzahl resultierenden Annahme einer 
Normalverteilung der Stichprobenverteilung resultierende t-Test für zwei un- 
abhängige Stichproben verglich die Angaben zu den universitären Inhalten 
(Q22: Wurden im Rahmen der universitären Ausbildung folgende Inhalte vorge- 
stellt (Ja/Nein): Standardabweichung (Q22/1), Durchführungsobjektivität (Q22/2), 
Vertrauens-/Konfidenzintervall (Q22/3), Messungenauigkeit/Messfehler (Q22/4) 
und Gaußsche Kurve der Normalverteilung (Q22/5)) mit dem Schwierigkeiten- 
Index. 

Tabelle 60 fasst die Mittelwertangaben, Tabelle B5 im Online-Material die 
Ergebnisse zusammen. 
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Tabelle 60. Mittelwertvergleiche Schwierigkeiten-Index für 022/1-022/5: Wurden im 
Rahmen der universitären Ausbildung folgende Inhalte vorgestellt. 


N Mittelwert Schwie- SD Standardfehler 


rigkeiten-Index Mittelwert 
Standardabweichung Ja 874 3.5086 0.55070 .01863 
Nein 64 3.3304 0.67571 .08473 
Durchführungsobjektivität Ja 845 3.5272 0.54820 .01886 
Nein 64 3.2623 0.64402 .08030 
Vertrauens-/Konfidenzintervall Ja 718 3.5275 0.53215 .01987 
Nein 118 3.3757 0.58265 .05365 
Messungenauigkeit Ja 790 3.5023 0.55316 .01968 
Nein 91 3.3805 0.63703 .06692 
Gaußsche Kurve der Normal- Ja 835 3.5065 0.55374 .01917 
NE Nein 64 3.3366 0.66472 .08332 


Anmerkung. Je niedriger der Mittelwert, desto mehr beschriebene Schwierigkeiten. SD = Standardabwei- 
chung. 


Der Mittelwertvergleich ermittelt für jedes Item einen höheren Mittelwert für 
den Schwierigkeiten-Index und somit weniger beschriebene Schwierigkeiten bei 
der Anwendung von Intelligenztests, wenn die jeweiligen Inhalte im Rahmen 
der universitären Ausbildung referiert worden sind:''” Dies trifft zu für die In- 
halte Standardabweichung (Ja: MW = 3.51/SD = 0.551, Nein: MW = 3.330/SD = 
0.676), Durchführungsobjektivität (Ja: MW = 3.53/SD = 0.548, Nein: MW = 
3.26/SD = 0.644), Vertrauens-/Konfidenzintervall (Ja: MW = 3.53/SD = 0.532, 
Nein: MW = 3.38/SD = 0.583) Messgenauigkeit/-fehler (Ja. MW = 3.50/SD = 
0.554, Nein: MW = 3.38/SD = 0.637) und für die Gaußsche Kurve der Normal- 
verteilung (Ja: MW = 3.51/SD = 0.554, Nein: MW = 3.37/SD = 0.665). 

Zur Prüfung vorhandener Signifikanzen prüfte der Levene-Test vorab für 
jedes Item, ob eine Varianzgleichheit vorliegt, was lediglich bei Q22/3 annä- 
hernd der Fall war (Q22/1: p = .003; Q22/2: p = .009; Q22/3: p = .060; Q22/4: 
p = .009; Q22/5: p = .017). Die bei Q23/3 vorliegende Tendenz zur Signifikanz 
(p = .060) ist unerheblich, da sowohl bei Varianzgleichheit (t(834) = 2.83, p = 
.005) als auch bei Ungleichheit (t(150.74) = 2.65, p = .009) ein signifikanter 
Mittelwertunterschied vorliegt (siehe Tabelle B5). 

Die Prüfungen nach dem Welch-Test bei vorliegender Ungleichheit der Va- 
rianzen ermittelte signifikante Unterschiede in den Mittelwerten bei Q22/1 


115 Es kann jedoch nicht ausgeschlossen werden, dass die jeweiligen Inhalte referiert worden 
sind, aber nicht erinnert werden können. 
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(Standardabweichung): 1(68.79) = 2.05, p = .044 und bei Q22/2 (Durchfüh- 
rungsobjektivität): £(70.48) = 3.21, p = .002. 

Tendenzen liegen vor bei Q22/4 (Messungenauigkeit/Messfehler): £(105.70) 
= 1.75, p = .084 und bei Q22/5 (Gaußsche Kurve): t(69.43) = 1.99, p = .051. 

Nach der Zusammenfassung der fünf Items zu einer gemeinsamen Varia- 
blen ergab die Prüfung mit der Spearman-Korrelation (siehe Tabelle B6) eine 
Signifikanz zwischen der gemeinsamen Variablen (alle Items der Fragengruppe 
Q22) mit dem Schwierigkeiten-Index (rSp(1126) = .115; p < .001). 

Q23 (Haben Sie an der Uni Intelligenztests ausprobiert?) wurde mit Hilfe des 
t-Tests mit dem Schwierigkeiten-Index verglichen. SonderpädagoglInnen, die 
diese Frage bejahten, erzielten im Mittelwertvergleich einen höheren Wert 
(gleichbedeutend mit weniger Schwierigkeiten) von MW = 3,53 (SD = 0.542) im 
Vergleich zu denen, die dies verneinten (MW = 3,43; SD = 0.621). Obwohl die 
Unterschiede gering sind, liegt auch hier eine Signifikanz vor nach der Prüfung 
mit dem Welch-Test bei nicht vorhandener Varianzgleichheit (t(451.93) = 2.30, 
p= .022). 

Zur Verwendung des Schwierigkeiten-Index muss bedacht werden, dass 
einzelne Fragen dieses Index keinen Bezug zur universitären Ausbildung, son- 
dern zu schulischen Rahmenbedingungen (z.B. Wurden Sie schon einmal ge- 
stört durch Geräusche (...)) oder zur Eignung der Testräume etc. haben. Die trotz 
dieser Einschränkungen signifikanten Ergebnisse deuten auf einen Zusammen- 
hang zwischen der universitären Ausbildung und erlebten Schwierigkeiten bei 
der Anwendung von Intelligenztests hin, obwohl einige dieser Schwierigkeiten 
nicht in direktem Zusammenhang mit der Ausbildung stehen. Deshalb soll eine 
detailliertere Auswertung Zusammenhänge prüfen zwischen den Items, die 
Problematiken erfragen und den Items, die nach der universitären Ausbildung 
fragen. 

Der im Anschluss für die post-hoc Prüfung durchgeführte Mann-Whitney- 
U-Test prüfte Zusammenhänge zwischen den drei Items aus Q14, den drei 
Items aus Q15 und Q28/5 mit den Items, die nach der universitären Ausbildung 
fragten (fünf Items aus Q22 und Q23). Es sei darauf hingewiesen, dass ein nied- 
riger Wert für Q28/5 (Mir fällt die Anwendung von Intelligenztests leicht) im 
Gegensatz zu den anderen Testvariablen positiv bewertet wird, da aus einer ho- 
hen Zustimmung zu den anderen Testvariablen höhere Problematiken resultie- 
ren. 

Zur besseren Übersicht werden die Items kurz dargestellt: 


Welche dieser Veränderung haben Sie schon einmal vorgenommen: 

e  Durchführungszeiten geändert (Q14/1) 

e  Durchführungszeit ganz weggelassen (Q14/2) 

e Rückmeldungen gegeben, wenn diese nicht vorgesehen waren (Q14/3) 
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Folgende Durchführungsregeln bereiten mir Schwierigkeiten: 

Umkehrregeln (Q15/1) - Abbruchregeln (Q15/2) - Ausrechnen des Testalters 
(Q15/3) 

Mir fällt die Durchführung von Intelligenztests leicht (Q28/5). 

Wurden im Rahmen der universitären Ausbildung folgende Inhalte vorgestellt: 
Standardabweichung (Q22/1) - Durchführungsobjektivität (Q22/2) - Ver- 
trauens-/Konfidenzintervall (Q22/3) - Messungenauigkeit/Messfehler (Q22/4) - 
Gaußsche Kurve der Normalverteilung (Q22/5) 

Haben Sie an der Uni Intelligenztests ausprobiert (Q23)? 


Tabelle 61. Mann-Whitney-U-Test zur Prüfung von Zusammenhängen zwischen Prob- 
lematiken während der Testanwendung und universitären Inhalten. 


Q14/14 014/72 14/3 Q15/1 15/2 Q15/3 028/5 


(Zeiten (Zeiten (unerlaub- (Umkehr- (Abbruch- (Testalter (Tests 
geändert) weggelas- teFeed- regel regel ausrech- fallen mir 
sen) backs) schwierig) schwierig) nen leicht) 
schwierig) 


U 35411 33893 31399 21076 30448 33360 34469 


oS 
A = 
M 
ŞS z -.164 -.966 -1.888 -2.276  -.959 -.282 -1.584 
>g = 

28 a Sig. .869 .334 .059 .023 .337 .778 .113 
El 33092 33249 30407 19107 26247 25576 32687 
> u © 
53 %# 
g 5ë z -.337 -.546 -1.537 -2.831 -2.139 -3.137 -1.663 
Sc T] 

Fe 
g7 8 a.Sig. .736 „585 .124 .005 .032 .002 .096 
Pu U 53850 51932 45277 32208 45620 45487 48373 
I 
xo 
Ge z -.165 -1.059 -3.321 -2.935 -2.213 -2.828 -3.320 
NN 
N c 
>g a. Sig. .869 .290 .001 .003 .027 .005 .001 


U 45074 44434 38999 29507 38602 39772 48048 


Z —.309 —.814 -2.679 -1.892 -1.510 -1.572 —.254 


Q22/4 (Mess- 
fehler) 


a. Sig. .757 .416 .007 .058 .131 .116 ‚800 


& T U 30809 31546 28533 19444 28228 29180 34708 
© Z 

z ž Z -.713 -.651 -2.145 -1.447 -1.153 -1.189 -.393 
No 

NS 

`g 2 a. Sig. .476 .515 .032 .148 .249 .234 .694 


U 109298 108116 110050 72030 101560 94551 106834 


Z —.295 —.090 —.472 -1.399 —.714 -3.290 -2.957 


Q23 (Tests 
ausprobiert) 


a. Sig. .768 .929 .637 .162 475 .001 .003 


Anmerkungen. U = Mann-Whitney-U-Test. z = z-Wert. a. Sig. = asymptotische Signifikanz. 
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Es sind 13 signifikante Unterschiede und drei Tendenzen berechnet worden 
(siehe Tabelle 61). Jede dieser Signifikanzen gibt einen Hinweis darauf, dass aus 
nicht referierten (oder erinnerten) Inhalten während der universitären Ausbil- 
dung Problematiken resultieren bzw. die Anwendung von Intelligenztests leich- 
ter fällt, wenn Inhalte im Zusammenhang mit der Anwendung von Intelligenz- 
tests an der Universität referiert worden sind. 

SonderpädagogInnen tendieren dazu, ein unerlaubtes Feedback in der Test- 
situation zu geben (Q14/3: U(983, 73) = 31399.50, z = -1.888, p = .059), wenn 
das Konstrukt der Standardabweichung nicht referiert wurde und haben au- 
ßerdem dann signifikant mehr Schwierigkeiten mit der Umkehrregel (Q15/1: 
U(815, 62) = 21075.50, z = -2.276, p = .023). 

Wenn an der Universität die Durchführungsobjektivität nicht referiert wur- 
de, resultierten daraus signifikant mehr Schwierigkeiten bei der Anwendung 
der Umkehrregel (Q15/1: U(791, 61) = 19107.00, z = -2.831, p = .005), der Ab- 
bruchregel (Q15/2: U(933, 66) = 26246.50, z = -2.139, p = .032) und dem Aus- 
rechnen des Testalters (Q15/3: U(932, 68) = 25576.00, z = -3.137, p = .002). 
Ebenfalls liegt dann eine Tendenz vor, die Anwendung von Intelligenztests als 
fällt nicht leicht einzuschätzen (Q28/5: U(978, 75) = 32687, z = -1.663, p = 
.096). 

Wurde das Vertrauens- bzw. Konfidenzintervall nicht an der Universität re- 
feriert (oder erinnert), werden signifikant häufiger unerlaubte Feedbacks in der 
Testsituation gegeben (Q14/3: U(813, 134) = 45277.00, z = -3.321, p = .001), die 
Umkehr- (Q15/1: U(696, 111) = 32208.00, z = -2.935, p = .003) und Abbruch- 
regeln (Q15/2: U(798, 129) = 45619.50, z = -2.213, p = .027) sowie das Aus- 
rechnen des Testalters (Q15/3: U(798, 131) = 45487.00, z = -2.828, p = .005) als 
schwierig empfunden und generell die Anwendung von Intelligenztests als we- 
niger leicht (Q28/5: U(828, 140) = 48373, z = -3.320, p = .001). 

Wurden Inhalte zur Messgenauigkeit bzw. zum Messfehler'"‘ nicht referiert, 
werden signifikant häufiger Feedbacks gegeben (Q14/3: U(884, 104) = 38999.00, 
z = -2.679, p = .007) und es liegt eine Tendenz zu Schwierigkeiten beim Umgang 
mit der Umkehrregel vor (Q15/1: U(734, 91) = 29506.50, z= -1.892, p = .058). 

Signifikant häufiger werden Feedbacks (Q14/3: U(939, 71) = 28532.50, z = 
-2.145, p = .032) gegeben, wenn die Gaußsche Kurve der Normalverteilung 
nicht referiert worden ist. 

Signifikant mehr Schwierigkeiten liegen beim Ausrechnen des Testalters vor, 
wenn Tests an der Universität nicht ausprobiert worden sind (Q15/3: U(700, 
304) = 94551.00, z = -3.290, p = .001). Sonderpädagoglnnen fällt die Anwendung 
von Tests signifikant leichter (Q28/5: U(732, 327) = 106833.50, z = -2.957, p = 
.003), wenn Intelligenztests an der Universität erprobt werden konnten. 


116 


116 Als Kernkonstrukt der Klassischen Testtheorie. 
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Die drei Items aus Q14 (Schwierigkeiten bei den Umkehr- und Abbruch- 
regeln und dem Ausrechnen des Testalters) beziehen sich auf Inhalte, die in 
Fortbildungen zur Anwendung von Intelligenztests referiert werden. Es ist 
möglich, dass TeilnehmerInnen aus diesen Seminaren weniger Schwierigkeiten 
bezüglich dieser Konstrukte empfinden (obwohl vielfältige Signifikanzen fest- 
gestellt worden sind, s.o.), unabhängig davon, ob es an der Universität gelehrt 
wurde oder nicht, da sie es ja vorgestellt bekamen im Rahmen der Seminare. Es 
wäre interessant, ob die Ergebnisse ähnlich sind für die ProbandInnengruppe, 
die nicht an Seminaren zu standardisierten Testverfahren teilnahmen. Deshalb 
werden Zusammenhänge im Rahmen dieser Hypothesenprüfung erneut unter 
der Bedingung geprüft, dass die ProbandInnen nie an einer Fortbildung zu 
standardisierten Testverfahren teilnahmen. 

Beim Vergleich zwischen Gesamt-, Kontroll- und Versuchsgruppe wurde 
zunächst der t-Test für zwei unabhängige Stichproben getrennt für die Kon- 
troll- und Versuchsgruppe durchgeführt (Q22: Wurden im Rahmen der univer- 
sitären Ausbildung folgende Inhalte vorgestellt: Standardabweichung (Q22/1), 
Durchführungsobjektivität (Q22/2), Vertrauens-/Konfidenzintervall (Q22/3), 
Messungenauigkeit/Messfehler (Q22/4) und Gaußsche Kurve der Normalvertei- 
lung (Q22/5)) und verglichen mit dem Schwierigkeiten-Index. Aus Gründen 
der Übersichtlichkeit werden die Mittelwerte, die Standardabweichungen und 
die Ergebnisse der Signifikanzprüfungen für die drei Gruppen zusammenge- 
fasst dargestellt in Tabelle 62. Die Wahl des post-hoc Tests ist abhängig von der 
Prüfung der Varianzgleichheit mit dem Levene-Test. 

Die zu einer Variablen zusammengefügten fünf Items der Fragengruppe 
Q22 sind anschließend getrennt nach Versuchs- und Kontrollgruppe mit der 
Spearman-Korrelation mit dem Schwierigkeiten-Index in Verbindung gebracht 
worden. Während für die Gesamtgruppe eine Korrelation von rSp(1126) = .115; 
p < .001 festgestellt wurde, hat sich dies in der Versuchsgruppe bestätigt 
(rSp(1021) = 107; p = .001), in der Kontrollgruppe wurde eine Tendenz mit 
rSp(102) = .173; p = .077 ermittelt. Die jeweils gleichgerichteten Ergebnisse be- 
deuten, dass je häufiger mit Ja geantwortet wurde (Ja wurde mit 1, Nein mit 0 
umgepolt), der Schwierigkeiten-Index höher ist (was weniger Schwierigkeiten 
bedeutet). Je mehr der beschriebenen Inhalte also referiert worden sind, desto 
weniger Schwierigkeiten werden erlebt (Versuchs- und Gesamtgruppe) bzw. 
tendenziell erlebt (Kontrollgruppe). 

Beim Vergleich zwischen Q23 (Haben Sie an der Uni Intelligenztests auspro- 
biert) und dem Schwierigkeiten-Index gibt es ein signifikantes Ergebnis nach 
der Prüfung mit dem t-Test für die Gesamtgruppe (t(451.93) = 2.30, p = .022 
bei ungleicher Varianz), für die Versuchsgruppe (t(813) = 2.238, p = .026 bei 
gleicher Varianz), aber keinen Unterschied bei der Kontrollgruppe (t(31.80) = 
0.927, p = .361 bei ungleicher Varianz). 
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Tabelle 62. Vergleich Gesamt-, Versuchs- und Kontrollgruppe: Uni-Inhalte vs. 
Schwierigkeiten-Index. 


Gesamtgruppe Versuchsgruppe Kontrollgruppe 


Uni n MW SD Sig. n MW SD Sig. n MW SD Sig. 
Q22/1 Ja 874 3.51 0.551 .044 787 3.52 0.529 .047 87 3.41 0.713 .673 
ein 64 3.33 0.676 58 3.35 0.674 6 3.29 0.752 
022/2 Ja 845 3.53 0.548 .002 765 3.53 0.019 .002 80 3.46 0.708 .521 
ein 64 3.26 0.644 59 3.26 0.638 6 3.26 0.776 
022/3 Ja 718 3.53 0.532 .005. 650 3.53 0.529 .009 68 3.52 0.569 .279 
ein 118 3.38 0.583 109 3.39 0.574 9 3.29 0.720 
022/4 Ja 790 3.50 0.553 .084 716 3.51 0.535 .075 74 3.40 0.702 .853 


ein 91 3.38 0.637 84 3.38 0.634 7 3.35 0.735 


022/5 Ja 835 3.51 0.554 .051 760 3.52 0.538 .048 75 3.42 0.695 .740 


ein 64 3.34 0.665 57 3.34 0.647 7 3.33 0.863 


Anmerkungen. Q22/1 = Standardabweichung. Q22/2 = Durchführungsobjektivität. Q22/3 = Vertrauens-/ 
Konfidenzintervall. Q22/4 = Messgenauigkeit. Q22/5 = Gaußsche Kurve. Uni = wurde das Konstrukt 
referiert. MW = Mittelwert. SD = Standardabweichung. Sig. = Signifikanz. 


Es sei erneut daran erinnert, dass einige Items, die zum Schwierigkeiten-Index 
gehören, keinen Bezug zur universitären Ausbildung haben. Deshalb soll eine 
detailliertere Analyse mögliche Unterschiede zwischen Kontroll- und Versuchs- 
gruppe ermitteln. Aus Gründen der Übersichtlichkeit werden die Ergebnisse 
der Signifikanzprüfung in den Tabellen 63 und 64, sowie B7, B8 und B9 darge- 
stellt. 

Wurde im Rahmen der universitären Ausbildung das Konstrukt Standard- 
abweichung (Q22/1) referiert, wurden in der Versuchsgruppe weniger Rück- 
meldungen (Q14/3) während der Testsituation gegeben (U(893, 66) = 25444.50, 
z = -1.965, p = .049; keine Signifikanzen in der Kontrollgruppe). Wurde die 
Durchführungsobjektivität (Q22/2) an der Universität thematisiert, hatten die 
SonderpädagogInnen aus der Versuchsgruppe weniger Schwierigkeiten mit der 
Umkehrregel (Q15/1: U(731, 57) = 16537.50, z = -2.711, p = .007), mit der Ab- 
bruchregel (Q15/2: U(851, 60) = 21546.00, z = -2.160, p = .031) und mit dem 
Ausrechnen des Testalters (Q15/3: U(853, 61) = 19652, z = -3.776, p < .001). 

Die meisten Unterschiede konnten erkannt werden, wenn die zum Vertrau- 
ens- bzw. Konfidenzintervall (Q22/3) zugehörigen Inhalte nicht referiert wor- 
den sind. Für diesen Fall hatten die SonderpädagogInnen der Versuchsgruppe 
signifikant mehr Schwierigkeiten bei der Anwendung der Umkehrregel (Q15/1: 
U(643, 106) = 28291.50, z = -2.925, p = .003), der Abbruchregel (Q15/2: U(725, 
121) = 38812.00, z = -2.169, p = .030) und dem Ausrechnen des Testalters 
(Q15/3: U(725, 122) = 37964.50, z = -2.972, p = .003) und haben dann auch 
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häufiger unerlaubte Rückmeldungen in der Testsituation gegeben (Q14/3: U(738, 
126) = 38302.50, z = -3.357, p = .001). Die Anwendung von Intelligenztests 
wird für diesen Fall auch signifikant leichter empfunden (Q28/5: U(752, 130) = 
40650.00, z = -3.268, p = .001). In der Kontrollgruppe konnten keine signifi- 
kanten Unterschiede festgestellt werden. 


Tabelle 63. Vergleich Universitäts-Inhalte (Q2, Q23) mit Q14/1, Q014/2, Q14/3 und 
Q15/1, getrennt für die Kontroll- und Versuchsgruppe (Mann-Whitney-U-Test). 


Uni 014/1 014/2 014/3 015/1 
Rang Sig. Rang Sig. Rang Sig. Rang Sig. 

Q22/1 Ja 479.2 :553 473.5 .521 485.4 .049 409.2 .052 
Vers. 

Nein 461.1 488.3 419.0 349.4 
Q22/1 Ja 48.5 .203 48.8 .296 49.0 .965 35.4 .161 
Kontr. 

Nein 61.1 57.7 48.6 23.1 
Q22/2 Ja 468.3 .389 464.4 .723 472.5 .079 400.4 .007 
Vers. 

Nein 442.4 472.5 414.9 319.1 
Q22/2 Ja 44.9 .158 45.6 .523 45.1 .607 32.9 .405 
Kontr. 

Nein 58.7 50.6 50.5 25.4 
Q22/3 Ja 431.5 .746 426.3 ‚332 443.6 .001 384.0 .003 
Vers. 

Nein 424.8 441.6 367.5 320.4 
022/3 Ja 41.6 .290 42.4 .832 42.4 .624 29.9 .594 
Kontr. 

Nein 50.2 43.8 38.3 25.8 
Q22/4 Ja 451.4 .727 447.1 .655 460.9 .003 388.7 .083 
Vers. 

Nein 443.0 455.5 382.2 346.4 
Q22/4 Ja 41.3 .051 42.2 .271 42.1 .617 30.1 .416 
Kontr. 

Nein 57.4 49.8 46.4 24.4 
Q22/5 Ja 460.9 .499 458.6 DA, 467.9 .032 393.0 ‚222 
Vers. g 

Nein 440.3 450.4 397.7 355.2 
Q22/5 Ja 43.5 .987 44.0 .514 43.3 .741 29.6 .330 
Kontr. 

Nein 43.4 39.1 402 21.5 
Q23 Vers. Ja 467.2 .946 467.7 .833 473.6 ‚581 404.1 .140 

Nein 468.3 465.4 463.6 379.2 
Q23 Ja 45.9 .930 46.8 .552 45.5 .980 32.9 .756 
Kontr. 

Nein 46.4 43.8 45.4 31.1 


Anmerkungen. Q22/1 = Standardabweichung. Q22/2 = Durchführungsobjektivität. Q22/3 = Vertrauens-/ 
Konfidenzintervall. Q22/4 = Messgenauigkeit. Q22/5 = Gaußsche Kurve. Uni = wurde das Konstrukt 
referiert. Q14/1 = Durchführungszeiten geändert. Q14/2 = Durchführungszeiten weggelassen. Q14/3 = 
unerlaubtes Feedback gegeben. Q15/1 = Umkehrregeln. Sig. = Signifikanz. Vers. = Versuchsgruppe. 
Kontr. = Kontrollgruppe. 
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Tabelle 64. Vergleich Universitäts-Inhalte (Q22, Q23) mit Q15/2, Q15/3 und Q28/5 
getrennt für die Kontroll- und Versuchsgruppe (Mann-Whitney-U-Test). 


Uni 015/2 015/3 Q28/5 
Rang Sig. Rang Sig. Rang Sig. 
Q22/1 Ja 467.7 .425 469.3 .370 488.3 .113 
Vers. 
ein 441.1 442.5 541.5 
Q22/1 Ja 48.4 .594 45.7 .089 52.1 .640 
Kontr. 
ein 42.9 60.6 Sl 
022/2 Ja 460.7 .031 465.0 .000 474.7 .066 
Vers. 
ein 389.6 353.1 534.8 
022/2 Ja 44.7 .779 42.6 .168 48.5 .948 
Kontr. 
ein 41.8 54.2 49.1 
022/3 Ja 430.5 .030 432.6 .003 430.6 .001 
Vers. 
ein 381.8 372.7 504.8 
022/3 Ja 41.4 .627 41.4 .902 42.7 .377 
Kontr. 
ein 37.4 42.3 49.9 
022/4 Ja 444.0 .144 447.0 .041 463.3 .794 
Vers. 
ein 405.3 398.2 470.3 
022/4 Ja 41.8 .734 41.0 ‚218 45.8 .810 
Kontr. 
ein 38.9 50.1 47.9 
Q22/5 Ja 452.5 .249 453.7 .103 474.9 .680 
Vers. 
ein 415.1 406.3 461.8 
Q22/5 Ja 42.1 .938 40.2 ‚277 45.6 .884 
Kontr. 
ein 41.4 48.5 44.3 
Q23Vers. Ja 459.6 „443 477.3 .000 464.9 .006 
ein 446.0 415.9 515.2 
Q23 Kontr. Ja 44.1 .926 42.8 .244 48.0 .268 
ein 43.6 49.2 54.8 


Anmerkungen. Q22/1 = Standardabweichung. Q22/2 = Durchführungsobjektivität. Q22/3 = Vertrauens-/ 
Konfidenzintervall. Q22/4 = Messgenauigkeit. Q22/5 = Gaußsche Kurve. Uni = wurde das Konstrukt 
referiert. Q15/2 = Abbruchregeln. Q15/3 = Testalter ausrechnen. Q28/5 = Testanwendung fällt leicht. 
Sig. = Signifikanz. Vers. = Versuchsgruppe. Kontr. = Kontrollgruppe. Q28/5: andere Polung (niedriger 
Wert = Anwendung von Tests fällt leichter). 


Wurde das Konstrukt Messgenauigkeit/-fehler (Q22/4) nicht an der Universität 
referiert, wurden häufiger unerlaubte Rückmeldungen gegeben in der Ver- 
suchsgruppe (Q14/3: U(808, 96) = 32038.50, z = -2.952, p = .003) und das Aus- 
rechnen des Testalters bereitete mehr Schwierigkeiten (Q15/3: U(792, 91) = 
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32052.50, z = -2.039, p = .041), während in der Kontrollgruppe keine Signifi- 
kanzen vorliegen. 

Ebenfalls keine signifikanten Unterschiede sind für die Kontrollgruppe be- 
rechnet worden, wenn an der Universität die Gaußsche Kurve der Normalver- 
teilung (Q22/5) nicht referiert worden ist, während in der Versuchsgruppe häu- 
figer Rückmeldungen in Testsituationen gegeben worden sind (Q14/3: U(861, 
41) = 23373.00, z = -2.146, p = .032). 

Sind an der Universität Intelligenztests ausprobiert worden (Q23), fällt die 
Anwendung von Tests (Q28/5: U(662, 298) = 88286.50, z = -2.771, p = .006) 
und das Ausrechnen des Testalters (Q15/3: U(635, 281) = 77251.50, z = -3.815, 
p < .001) SonderpädagogInnen aus der Versuchsgruppe deutlich leichter, wäh- 
rend für die Kontrollgruppe keine signifikanten Unterschiede festgestellt wer- 
den können. 


5.4.8 Zusammenhänge zwischen Schwierigkeiten bei der 
Anwendung der Tests und der außeruniversitären Fortbildung 


Hypothese 8 

H0: Es gibt keine Unterschiede zwischen der Teilnahme an einer außeruniver- 
sitären Fortbildung zur Testdiagnostik und Schwierigkeiten bei der An- 
wendung von Intelligenztests. 

Hl: Es gibt einen Unterschied zwischen der Teilnahme an einer außeruniversi- 
tären Fortbildung zur Testdiagnostik und Schwierigkeiten bei der Anwen- 
dung von Intelligenztests. 


Der t-Test vergleicht Q25 (Haben Sie an einer außeruniversitären Fortbildung 
zu Intelligenztests teilgenommen?) mit dem Schwierigkeiten-Index. Beim Mit- 
telwertvergleich gaben TeilnehmerInnen von Fortbildungen zu Intelligenztests 
(MW = 3.50, SD = .540) nur moderat weniger Schwierigkeiten bei der Anwen- 
dung von Intelligenztests an als SonderpädagogInnen, die an keiner entspre- 
chenden Fortbildung teilnahmen (MW: 3.37, SD = .754). 

Der Levene-Test stellt eine signifikante Abweichung der Varianzgleichheit 
fest (p < .001), so dass die Angaben zur Signifikanz für nicht gleiche Varianzen 
gewertet werden mit dem Welch-Test. Es besteht eine Tendenz zu schwach we- 
niger erlebten Schwierigkeiten bei der Anwendung von Intelligenztests bei Son- 
derpädagoglInnen, die an einer Fortbildung teilnahmen (£(111.472) = 1.719, p = 
.088). 
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5.4.9 Unterschiede zwischen Auswertungsfehlern 
und der Anwendung von Auswertungsprogrammen 


Ab hier werden die Hypothesenprüfungen mit Hilfe der Analyse ausgefüllter 
Formulare durchgeführt, die im Rahmen von Begutachtungen zur Prüfung son- 
derpädagogischen Förderbedarfs''” angefertigt worden sind im Rahmen einer 
Intelligenztestung. 


Hypothese 9 

H0: Die Anzahl gemachter Fehler unterscheidet sich nicht zwischen Auswer- 
tungen mit und ohne Computerauswertungen. 

Hl: Die Anzahl gemachter Fehler unterscheidet sich zwischen Auswertungen 
mit und ohne Computerauswertungen. 


Der Mann-Whitney-Test konnte keinen signifikanten Unterschied feststellen 
(U(122, 123) = 7494.00, z = —0.17, p = .986); mit Computerauswertung: mittle- 
rer Rang = 123.07; ohne Computerauswertung: mittlerer Rang = 122.93)". Die 
Anzahl der gefundenen Fehler in den Formularen ist nach Prüfung aller Fälle 
nicht abhängig von der Nutzung einer Computerauswertung. 

Bei ausschließlicher Betrachtung des WISC-IV ist es ebenfalls unerheblich, 
ob die Computerauswertung genutzt wurde (U(32, 28) = 345.00, z = -01.581, 
p = .114; mit Computerauswertung: mittlerer Rang = 27.28; ohne Computer- 
auswertung: mittlerer Rang = 34.18). Es wurden zwar mehr Fehler ohne Com- 
puterauswertung gemacht, doch ist dieser Unterschied nicht signifikant. Glei- 
ches gilt für den SON-R 6-40 (U(54, 8) = 205.50, z = -0.249, p = .803; mit Com- 
puterauswertung: mittlerer Rang = 31.69; ohne Computerauswertung: mittlerer 
Rang = 30.19) und für die KABC-I (U(8, 11) = 25.50, z = -1.587, p = .129, mit 
Computerauswertung: mittlerer Rang = 12.31; ohne Computerauswertung: 
mittlerer Rang = 8.32). Für die anderen Tests liegen zu wenige Fälle vor bzw. es 
besteht nicht die Möglichkeit der Auswertung mit einem Computerprogramm. 


117 Abhängig vom Bundesland kann es auch anders heißen, z. B. Unterstützungsbedarf oder 
Bildungsangebot. 
118 Asymptotische Signifikanz. 
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5.4.10 Zusammenhänge zwischen Durchführungs- und 
Auswertungsfehlern und der Komplexität der Tests 


Hypothese 10 

H0: Es gibt keinen Zusammenhang zwischen der Anzahl gemachter Fehler und 
der Komplexität der Intelligenztests. 

Hl: Es gibt einen Zusammenhang zwischen der Anzahl gemachter Fehler und 
der Komplexität der Intelligenztests. 


Die nach Komplexität in fünf Gruppen aufgeteilten Tests werden korreliert mit 
Hilfe der Spearman-Korrelation für ordinale Daten; eine Korrelation nach 
Pearson schließt sich aus, da die Kriterien, nach denen die fünf Gruppen aufge- 
teilt sind, keine gleichen Abstände zwischen den Gruppen zulassen. 

Je komplexer die Tests sind, desto mehr Fehler sind vorhanden (rSp(242) = 
214; p = .001). 

Bei genauerer Betrachtung, unterschieden nach Fehlerart, liegen weder für 
die Abbruchregel (rSp(511) = .004; p = .980) noch für die Umkehrregel (rSp(25) = 
—.077; p = .704) Signifikanzen vor, jedoch für die falsch gezählten Punkte bzw. 
falschen Auswertungen eine negative Korrelation (rSp(93) = —.233; p = .023)"?. 

Während also tatsächlich mehr Fehler gemacht werden, je komplexer der 
Test ist, sind weniger Fehler feststellbar beim Addieren der Rohwertpunkte 
bzw. bei der Bewertung der Aufgaben, je komplexer der Test ist, siehe Tabelle 65. 


Tabelle 65. Korrelation zwischen Fehler und Komplexität der Tests. 


Addieren/Auswerten Abbruchregel Umkehrregel Gesamtfehler 
Korrelationskoeffzient —.233 .004 —.077 .214 
Signifikanz (zweiseitig) .023 .980 .704 .001 
n 95 53 27 244 


Nachvollziehbar hängt die Komplexität der Tests auch von der Dimensionalität 
ab, da mehrdimensionale Tests komplex, sehr komplex oder außerordentlich 
komplex sind, eindimensionale Tests wenig oder leicht komplex. Deshalb bietet 
sich im Rahmen der Hypothesenprüfung auch ein Vergleich dieser beiden 
Gruppen an. Da keine Normalverteilung vorliegt bei der Anzahl gemachter 
Fehler, sondern die Verteilung stark linkssteil ist (siehe Abbildung C), kommt 
der t-Test nicht in Frage. 


119 Für die Kategorie falsch berechnetes Testalter liegen zu wenige Fälle vor. 
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Der Unterschiede berechnende Mann-Whitney-U-Test ermittelte eine hohe 
Signifikanz von U(109, 85) = 3127.00, z = -4.05, p < .001 (eindimensional: mitt- 
lerer Rang = 83.69; mehrdimensional: mittlerer Rang = 115.21). Mehrdimen- 
sionale Tests sind signifikant fehleranfälliger als eindimensionale Tests (da der 
mittlere Rang bei mehrdimensionalen Tests höher ist). 

Eine genauere Analyse'” unterschieden nach Fehlerart'”' ermittelt in der 
Kategorie Abbruchregel keine Signifikanz (U(4, 38) = 58.00, z = -1.076, p = 
.282), auch wenn der mittlere Rang bei den mehrdimensionalen Tests höher ist 
(mittlerer Rang 21.97; eindimensional: mittlerer Rang = 17,00). Bei den falsch 
gezählten Punkten bzw. bei der falschen Auswertung besteht eine Signifikanz 
von U(41, 34) = 527.00, z = -2.155, p = .031 (mehrdimensional: mittlerer Rang = 
33.00; eindimensional: mittlerer Rang = 42.15). Obwohl also insgesamt mehr 
Fehler bei den mehrdimensionalen Tests gemacht worden sind, wurden signifi- 
kant mehr Punkte falsch gezählt bzw. wurden falsche Auswertungen bei den 
eindimensionalen Tests vorgenommen. 


120 Jeweils mit dem Mann-Whitney-U-Test, asymptotische Signifikanz, zweiseitig. 

121 Ohne falsch berechnetes Alter am Testtag, da dies einmal zu Beginn eines Tests durchge- 
führt wird und kein Zusammenhang zur Dimensionalität besteht und ohne Umkehrregel, 
da es diese bei den eindimensionalen Tests nicht gibt; für die Fehlerart Anfangsitem lie- 
gen zu wenig Fälle vor. 
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6 Interpretation und Diskussion 


Grundlage der erzielten Ergebnisse war unter anderem die Auswertung von In- 
telligenztest-Formularen unter Berücksichtigung der Durchführungs- und Aus- 
wertungsobjektivität, die im Rahmen sonderpädagogischer Begutachtungen 
durchgeführt worden sind. Der größere Teil der Ergebnisse resultiert jedoch 
aus den Antworten des Fragebogens für SonderpädagoglInnen. Diese Ergebnisse 
werden zunächst bewertet, anschließend die Ergebnisse aus der Analyse von 
Testformularen. Am Ende dieses Kapitels sollen Einschränkungen beschrieben 
werden, die die Ergebnisse relativieren könnten und ein Fazit gezogen werden 
sowie ein Ausblick auf mögliche Folgeprojekte, die sich aus dieser Arbeit erge- 
ben können. 


6.1 Fragebogen 


Die Interpretation der Ergebnisse aus der Fragebogenauswertung kann unter- 
teilt werden in Ergebnisse, die sich mit der Anwendung der Tests, mit Bundes- 
ländervergleichen, mit dem Alter und Geschlecht und mit der Ausbildung be- 
schäftigen. 

Für jeden dieser vier Blöcke werden zusammengefasst Ableitungen und 
Schlussfolgerungen vorgestellt, die für die Anwendung von Intelligenztests im 
sonderpädagogischen Kontext interessant sein könnten, evtl. sogar Handlungs- 
hinweise vorgeschlagen. 


6.1.1 Anwendung 


Die ersten drei Hypothesen beschäftigten sich mit der Anwendung und Bedeu- 
tung von Intelligenztests und seien kurz erinnert: 


e Hypothese 1 fragte nach der Aussagekraft abhängig von der Dimensionalität 
des Verfahrens. 

e Hypothese 2 fragte, ob komplexere Tests seltener angewendet werden. 

e Hypothese 3 prüfte, ob es Vorlieben für bestimmte Tests gibt, auch wenn 
andere vorhanden sind. 
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6.1.1.1 Interpretation der Ergebnisse zur Anwendung von Intelligenztests 


Intelligenztests haben einen hohen Stellenwert im sonderpädagogischen Alltag. 
Lediglich 3 Prozent der ProbandInnen führten bisher keinen Intelligenztest 
durch und von 72 Prozent wird in Zukunft erwartet, Intelligenztests durchzu- 
führen. Die Anwendung von Intelligenztests ist keine Randerscheinung und alle 
in Folge diskutierten Schlussfolgerungen stehen im Zusammenhang mit einem 
Arbeitsbereich von Bedeutung in der Sonderpädagogik. Selbst bei einer seltenen 
Anwendung von Intelligenztests kann eine hohe Bedeutung angenommen wer- 
den, da die Gefahr einer Stigmatisierung durch die falsche Anwendung der 
Tests als bekannt unterstellt werden darf. 

Die erste Hypothese erfragte die empfundene Aussagekraft von mehr- bzw. 
eindimensionalen Tests. Signifikant höher wird die Aussagekraft mehrdimen- 
sionaler Tests eingeschätzt. Auch wenn das Ergebnis absehbar war, diente sie 
späteren Argumentationen. Die Motivation für diese Forschung ist u.a. eine 
Verbesserung bei der Anwendung von Intelligenztests. Es kann nicht ausge- 
schlossen werden, dass in der Praxis weniger aussagekräftige Tests angewendet 
werden, obwohl diese kaum pädagogische Schlussfolgerungen oder Ableitun- 
gen für Fördermaßnahmen zulassen, begründet mit der einfacheren Anwend- 
barkeit der eindimensionalen Tests und dem geringeren Zeitaufwand. 

Sollten mehrdimensionale Tests nicht angewendet werden, obwohl sie als 
aussagekräftiger eingeschätzt werden, würde auf einer soliden Grundlage disku- 
tiert werden können, welche Bedingungen die Anwendung aussagekräftigerer 
Tests verhindern (z.B. Zeitdruck, ungenügende Vorbereitungszeit, Mängel in 
der Ausbildung usw.). Die solide Grundlage dafür ist diese Hypothesenprüfung 
und es kann nun ausgeschlossen werden, dass mehrdimensionale Tests als we- 
niger aussagekräftig eingeschätzt werden, z.B. indem Drittvariablen Einfluss auf 
ein unerwartetes Ergebnis nehmen könnten, z.B. die Einschätzung, dass ein- 
dimensionale Tests aussagekräftiger sind, weil die wenigen Ergebnisse besser 
interpretierbar sind im Gegensatz zu den vielen Ergebnissen eines mehrdimen- 
sionalen Tests, dessen kontextuale Würdigung überfordern könnte. 

Es ist also festzustellen, dass die ProbandInnen die höhere Aussagekraft 
mehrdimensionaler Tests wie KABC-II oder WISC-IV honorieren. 

In der zweiten Hypothese wurde nach Unterschieden zwischen Anwen- 
dungshäufigkeit und Komplexität der Tests gefragt. Die mehrdimensionalen 
Tests sind auch die komplexeren Tests, also die Tests mit mehr Durchführungs- 
regeln. Entsprechend dem Ergebnis der ersten Hypothese wäre zu erwarten, 
dass komplexere Tests auf Grund ihrer höheren Aussagekraft häufiger durchge- 
führt werden. 

Bis auf wenige Ausnahmen werden weniger komplexe Tests häufiger als 
komplexere Tests durchgeführt. Die KABC-I hat in diesem Zusammenhang 
eine besondere und unerwartete Stellung. Trotz der Neigung zur Anwendung 
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vermeintlich einfacherer Tests wird ausgerechnet der mit Abstand komplexeste 
Test KABC-II ebenfalls häufig angewendet. Die KABC-I (außerordentlich 
komplex) wird signifikant häufiger angewendet als alle anderen Tests mit weni- 
ger Regeln, bis auf die Tests der CFT-Reihe (wenig komplex), hier liegt kein Un- 
terschied in der Anwendungshäufigkeit vor. 

Positiv formuliert bedeutet dies, dass der aussagekräftigste Test nicht selte- 
ner angewendet wird wie die am wenigsten aussagekräftigen Tests aus der CFT- 
Reihe, negativ formuliert aber auch nicht häufiger. 

Weniger plausible Erklärungen dafür könnten sein, dass die wenig komple- 
xen Tests als Zweittest einer komplexen Testbatterie hinzugefügt worden sind, 
z.B. im Rahmen eines Cross-battery-assessment (Renner & Mickley, 2015b). Bei 
bestimmten Fragestellungen empfehlen die Autoren, neben einem Basistest 
(z.B. KABC-II) die Anwendung weiterer Subtests aus Testbatterien. Wären z.B. 
Hinweise zur fluiden Intelligenz von Interesse, könnte ein Test der CFT-Reihe 
zu einer Testung mit einem mehrdimensionalen Test, der u.a. die fluide Intelli- 
genz misst, hinzugefügt werden. Eine weitere, ebenfalls weniger plausible Erklä- 
rung könnte sein, dass ein Test der CFT-Reihe als Einstieg genutzt worden ist 
zur Entscheidungsfindung für eine ausführliche Testung. So wurden in Berlin 
und Brandenburg alle SonderpädagogInnen, die im gemeinsamen Unterricht 
arbeiten mit den Tests der CFT-Reihe ausgestattet und in der Anwendung ge- 
schult!?. Die mit dem CFT ermittelten Testergebnisse dienen als Grundlage für 
eine Meldung gegenüber den diagnostischen Teams, die es in diesen beiden 
Bundesländern seit einigen Jahren gibt (Land Brandenburg, 2013; Senat Berlin, 
2012). Die MitarbeiterInnen der diagnostischen Teams ermitteln dann gegebe- 
nenfalls fundiertere Ergebnisse aus komplexeren Tests. Diese Vorgehensweise 
ist jedoch nur in diesen beiden Bundesländern bekannt. 

Eine wahrscheinlichere Erklärung dafür, dass die KABC-II trotz der größe- 
ren Aussagekraft zwar nicht häufiger, aber auch nicht seltener als die Tests der 
CFT-Reihe angewendet wird, könnte aus der Zusammensetzung der Stichprobe 
resultieren. Die Stichprobe besteht aus SonderpädagoglInnen, die zur Teilnahme 
an der Befragung eingeladen worden sind, nachdem sie an einer Schulung zu 
Intelligenztests teilgenommen haben. In diesen Schulungen wurde überpropor- 
tional häufig die KABC-I referiert, was die prominente Stellung der KABC-I 
innerhalb dieser Studie erklären könnte. 

Für die Prüfung der Möglichkeit, ob die häufige Anwendung der KABC-I 
mit einer selektiven Auswahl der Stichprobe zusammenhängt, war der Ver- 
gleich der Versuchsgruppe (ProbandInnen, die an Fortbildungen zum Thema 
teilgenommen haben) mit der Kontrollgruppe interessant (ProbandInnen, die 
nicht an Fortbildungen zu Intelligenztests teilgenommen haben), da Selektions- 


122 Stand: Anfang 2019. 


230 


effekte für die Kontrollgruppe nicht anzunehmen sind. Obwohl die mittleren 
Ränge andeuten, dass auch in der Kontrollgruppe am häufigsten die Tests der 
CFT-Reihe (jeweils 1. Rang) und die KABC-I (jeweils 2. Rang) angewendet 
werden, sind die Unterschiede in der Anwendung der KABC-I mit den ande- 
ren Kategorien nicht signifikant, und tatsächlich wird die KABC-L signifikant 
seltener in der Kontrollgruppe als in der Versuchsgruppe genutzt. Auch dieses 
Ergebnis kann sowohl positiv als auch negativ interpretiert werden: Die KABC- 
II als mehrdimensionaler und somit aussagekräftiger Test wird weder in der 
Kontroll- noch in der Versuchsgruppe seltener als vermeintlich einfache Tests 
durchgeführt. Somit wird mit der Anwendung der KABC-I dessen Aussage- 
kraft durch eine häufige Anwendung respektiert. Andererseits werden aber die 
wenig aussagekräftigen Tests der CFT-Reihe auch nicht signifikant seltener als 
die KABC-I angewendet'*. 

Insgesamt deuten die Ergebnisse eine Präferenz für die Anwendung von 
vermeintlich einfachen Tests an, sowohl für die Versuchsgruppe, vor allem aber 
für die Kontrollgruppe. Zwei Ergebnisse weichen von diesem Ergebnis ab: 


1. In der Versuchsgruppe gibt es deutliche Hinweise für eine Bevorzugung der 
KABC-I gegenüber Tests mit weniger Regeln und einer geringeren Aus- 
sagekraft. Dies wird mit der selektiven Auswahl der Stichprobe assoziiert, 
kann aber auch als Beleg für die Nützlichkeit der KABC-I im sonderpäd- 
agogischen Kontext interpretiert werden. 

2. In der Versuchsgruppe werden signifikant häufiger sehr komplexe Tests 
gegenüber komplexen Tests angewendet. Es werden also signifikant häufiger 
der WISC-IV und der WPPSI-IH angewendet als die K-ABC und der WNV, 
obwohl WISC-IV und WPPSI-II in der Anwendung komplexer sind. Die- 
ses Ergebnis kann damit begründet werden, dass die K-ABC sehr veraltet ist 
und der WNV wenig verbreitet. 


Die dritte Hypothese erfragte Unterschiede zwischen der Verfügbarkeit und der 
Vorliebe von Intelligenztests. In der Regel befinden sich in den Testschränken, 
Mediatheken oder Ausleihen für eine Region oder Schule mehrere Tests. Unter 
der Bedingung, dass wenigstens zwei bestimmte Tests vorhanden sind, ergab die 
Prüfung der verschiedenen Kombinationsmöglichkeiten, dass die neue KABC- 
II signifikant häufiger durchgeführt wird als die anderen Tests mit Ausnahme 
des SON-R 6-40 (keine Signifikanz), während die veraltete K-ABC signifikant 
seltener angewendet wird als die anderen Tests. Dies ist nicht selbstverständ- 
lich, da Bekanntes und Bewährtes evtl. gerne beibehalten werden könnte. 


123 Ohne Berücksichtigung der Bonferroni-Korrektur gibt es sogar eine Tendenz zu einer 
häufigeren Anwendung der CFT-Tests im Vergleich zur KABC-I. 
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Obwohl der WPPSI-III mehrdimensional ist und auch nicht übermäßig ver- 
altet, scheint dieser Test unbeliebt zu sein. Entweder wird er seltener angewen- 
det als andere Tests (KABC-II; CFT1/CFT1-R; CFT20-R; SON-R 2%-7; SON-R 
6-40; IDS) oder es gab keine Signifikanz. Dies bedeutet immerhin, dass es z.B. 
keinen signifikanten Unterschied gibt in der Häufigkeit der Anwendung zwi- 
schen K-ABC und WPPSI-IH, obwohl der Flynn-Effekt und die veralteten Sti- 
muli der K-ABC einem fachlichen Vergleich mit dem WPPSI-IH nicht stand- 
halten würden. 

Relativ häufig wird der SON-R 6-40 durchgeführt, auch wenn andere Tests 
vorhanden sind. Er wird signifikant häufiger oder tendenziell häufiger durchge- 
führt als die anderen Tests, bis auf die KABC-II (keine Signifikanz). SON-R 6- 
40 und KABC-II sind zwar aktuell und teststatistisch solide Verfahren, doch 
misst der SON-R 6-40 lediglich einen kleinen Teil der Intelligenz und die 
KABC-I deutlich mehr Intelligenz-Aspekte. Gemessen an der Anzahl von Si- 
gnifikanzen würden folgende Tests besonders präferiert werden unter der Be- 
dingung, dass wenigstens ein weiterer Test zur Verfügung steht: 


KABC-II (9/1/0)" 

SON-R 6-40 (7/3/0) 

SON-R 2%-7 (4/5/1) 

IDS (4/4/2) 

CFTI/CFTI-R (3/3/4) 

SON-R 5%-7 (2/6/2) 

WISC-IV und CFT20-R (2/5/3) 
WNV (1/72) 

. WPPSI-II (0/2/8) 

10. K-ABC (0/1/9) 


9.00: "IN IV BEI ID FE 


Aus dieser Aufstellung wird deutlich, dass bei gleichzeitigem Vorhandensein 
von wenigstens einem weiteren Test KABC-II und SON-R 6-40 bevorzugt an- 
gewendet werden und die Tests aus der Wechsler-Reihe, die ansonsten in den 
psychologischen Beratungsstellen ein hohes Renommee haben, kaum eine Rolle 
spielen. Daraus kann abgeleitet werden, dass die Tests aus der Wechsler-Reihe 
im sonderpädagogischen Kontext eine untergeordnete Rolle spielen. 

Unter der Bedingung, dass mehrere Tests zur Verfügung stehen,'” konnten 
keine Signifikanzen ermittelt werden. Dies bedeutet u.a., dass der veraltete 


124 Die erste Zahl in der Klammer gibt die Anzahl der positiven Signifikanzen wieder (Test 
wird häufiger durchgeführt als ein anderer), die dritte Zahl die Anzahl negativer Signifi- 
kanzen (Test wird seltener als andere durchgeführt); mittlere Zahl in Klammer: Anzahl 
nicht vorhandener Signifikanzen. 
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SON-R 5%-17 nicht signifikant seltener als die aktuelle und aussagekräftige 
KABC-II genutzt worden ist. Aus fachlicher Sicht wäre ein anderes Ergebnis 
wünschenswerter. 

Stehen sowohl die eindimensionalen und die mehrdimensionalen Tests zur 
Verfügung'”, wird lediglich der WPPSI-IH signifikant seltener angewendet als 
die KABC-II, SON-R 6-40 und der SON-R 2%-7. Auch für diese Bedingung ist 
die Betrachtung auf nicht ermittelte Korrelationen interessanter: Aussagekräf- 
tige Tests wie die KABC-I oder der WISC-IV werden nicht signifikant häufiger 
angewendet als die wenig aussagekräftigen Tests der CFT-Reihe und der SON- 
R5%-17. 

Der SON-R 5%-17 wird nicht einmal signifikant seltener angewendet als die 
Nachfolgeversion SON-R 6-40, wenn beide Versionen zur Verfügung stehen'”. 
Selbst unter Auslassung der konservativen Bonferroni-Korrektur wäre weder 
eine Signifikanz noch eine Tendenz vorhanden. 

Getrennt nach Versuchs- und Kontrollgruppe sind die Unterschiede groß. 
In der Kontrollgruppe konnten keine Signifikanzen für die K-ABC festgestellt 
werden, d.h., in jeder geprüften Kombination'”® wurde die K-ABC nicht signi- 
fikant seltener angewendet. Obwohl die aussagkräftige KABC-I vorhanden ist, 
wird sie nicht gegenüber deutlich weniger aussagkräftigen Tests wie CFT1/ 
CFT1-R und CFT20-R oder sehr veralteten Tests wie SON-R 5%-17 und K- 
ABC bevorzugt. 

Da die Kontrollgruppe eher die Gesamtheit der SonderpädagogInnen reprä- 
sentiert als die Versuchsgruppe, ist zu befürchten, dass die unterschiedliche 
Nützlichkeit der verschiedenen Verfahren in der sonderpädagogischen Dia- 
gnostik nicht genügend honoriert wird, denn die sehr veraltete K-ABC z.B. 
wird nicht seltener angewendet wie aktuellere Verfahren. Die Nachfolgeversion 
der K-ABC ist die KABC-L. Sie ist neu normiert, die Stimuli sind aktueller und 
kindgerechter und aus der Zeit gefallene Items wie bei der K-ABC vorhanden, 
reduzieren nicht die Aussagekraft. Ein Ergebnis zugunsten der aktuellen 
KABC-I wäre wünschenswert, ist jedoch im Gegensatz zu der Versuchsgruppe 
für die Kontrollgruppe nicht erkennbar. 

Es ist festzustellen, dass unabhängig von Aussagekraft, Dimensionalität und 
Komplexität und auch unabhängig vom Alter der Tests und somit dem Einfluss 


125 Um die Fallzahlen nicht zu gering zu halten (nur in zwei Fällen standen alle untersuchten 
11 Tests zur Verfügung) sind K-ABC, WPPSI-II und WNV in dieser Bedingung ausge- 
nommen worden. 

126 Zur Wahrung ausreichender Fallzahlen ohne Einbezug der K-ABC. 

127 Vergleich unter der Bedingung, dass die neuesten und die ältesten Tests zur Verfügung 
stehen. 

128 Zur Wahrung ausreichender Fallzahlen sind WNV, WPPSI-II und IDS ausgenommen 
worden. 
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des Flynn-Effekts auf die Ergebnisse bei veralteten Tests mit dessen teils über- 
holten Stimuli, keine Präferenz zugunsten aktuellerer und nützlicherer Tests er- 
mittelt werden konnte für die Kontrollgruppe. Im Gegenteil: einzig der ein- 
dimensionale SON-R 6-40 wurde signifikant häufiger angewendet im Vergleich 
mit dem aussagekräftigeren WISC-IV. 

Die einfache und logisch nachvollziehbare Forderung, dass aktuelle und aus- 
sagekräftige Tests genutzt werden sollten, veraltete und wenig aussagekräftige 
Tests hingegen nicht, findet in den Ergebnissen dieser Studie keine Entsprechung. 


6.1.1.2 Bedeutung der Ergebnisse für die Sonderpädagogik 


Die ersten drei Hypothesen fragten nach der Anwendung und der Einschätzung 
der Aussagekraft von Intelligenztests. Komprimiert werden Schlussfolgerungen 
für die Anwendung von Intelligenztests im sonderpädagogischen Kontext zur 
Diskussion gestellt. 


e Obwohl mehrdimensionale Intelligenztests als aussagekräftiger eingeschätzt 
werden, resultiert daraus nicht folgerichtig eine höhere Nutzung im Ver- 
gleich zu eindimensionalen Tests. 

e Die KABC-I erhält hingegen eine herausragende Stellung, obwohl dieser 
Test am komplexesten ist. Er wird besonders in der Versuchsgruppe bevor- 
zugt genutzt. Die vermehrte Beschäftigung mit der Anwendung von Intelli- 
genztests geht offensichtlich einher mit der richtigen Konsequenz, diesen 
für die Sonderpädagogik besonders geeigneten Test zu präferieren, aber 
auch einher mit der Konsequenz, bei eindimensionalen Tests zumindest ak- 
tuelle zu verwenden. 

e ProbandInnen der Kontrollgruppe, die sich vermeintlich weniger mit der 
Anwendung von Intelligenztests auseinandergesetzt haben, diese aber den- 
noch nutzen, unterscheiden weniger nach Aktualität und Aussagekraft der 
Tests. Ob dies tatsächlich mit einer geringeren Auseinandersetzung mit der 
Bedeutung von Intelligenztests zusammenhängt, oder ob strukturelle Be- 
dingungen dazu führen (z.B. Zeitnot), bliebe zu diskutieren und gegebenen- 
falls zu ändern. In der Regel wurde angegeben, dass mehrere Tests zur Ver- 
fügung stehen, so dass eine mangelnde Auswahl an Tests nicht die Ursache 
sein kann. 

e Testverfahren aus der Wechsler-Reihe (WISC-IV, WNV, WPPSI-II) spie- 
len in der Sonderpädagogik eine untergeordnete Rolle. 

e Es wäre zu überlegen, ob die Anwendung sehr veralteter Tests wie SON-R 
5%-17 und K-ABC ausgeschlossen werden sollte, da sie durch aktuelle Ver- 
sionen bereits vor Jahren ersetzt worden sind. Derzeit gibt es deutliche Hin- 
weise, dass diese Tests noch in der Anwendung sind. 
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Aus den Ergebnissen dieser Studie resultieren Empfehlungen für die Anwen- 
dungspraxis. Im Rahmen einer sonderpädagogischen Begutachtung wäre es 
wünschenswert, die aktuellsten und aussagekräftigsten Tests anzuwenden, um 
fundierte Aussagen über das intellektuelle Potential inkl. der Analyse von Stär- 
ken und Schwächen vornehmen zu können. Diese Empfehlung könnte unter- 
strichen werden, indem das Gegenteil verdeutlicht wird: die Anwendung von 
wenig aussagekräftigen Tests, die kaum Defizite und Ressourcen erkennen kön- 
nen, somit auch nicht geeignet sind, Förderziele oder -maßnahmen abzuleiten. 

So ist es nicht möglich, Schwächen in der auditiven Merkfähigkeit festzustel- 
len, wenn die eindimensionalen Tests durchgeführt werden, die ausschließlich auf 
visuellen Stimuli basieren. Hinweise, ob Kinder besser über den auditiven oder 
den visuellen Kanal Unterrichtsinhalte wahrnehmen können, sind somit nicht 
möglich. An den Anschaffungskosten kann diese Anwendungspraxis nicht nur 
liegen, denn der verbreitete eindimensionale SON-R 6-40 kostet mehr als jeder 
der mehrdimensionalen Tests, wenn auch die Tests der CFT-Reihe günstig sind. 

Es gibt ein deutliches Bewusstsein darüber, welche Tests zu Recht als aus- 
sagekräftig eingeschätzt werden. Dieses Bewusstsein erhält leider keine Ent- 
sprechung in der Anwendungspraxis. Die häufigere Anwendung mehrdimen- 
sionaler Tests wird empfohlen, die Bedingungen zur Umsetzung dieser Praxis, 
die den Kindern gerechter wird, soll an späterer Stelle konkretisiert werden. Zu- 
sammengefasst kann festgehalten werden: bestünde der Weg zu einer Hand- 
lungsänderung in den zwei Schritten, zunächst ein Bewusstsein für die Sinnhaf- 
tigkeit der Änderung zu entwickeln und im zweiten Schritt die Umsetzung der 
Änderung, so kann der erste Schritt als vorliegend attestiert werden. Darüber 
hinaus wird empfohlen, die K-ABC und den SON-R 5%-17 weder formell noch 
informell zu nutzen. 


6.1.2 Vergleiche zwischen den Bundesländern 


Die vierte Forschungsfrage erwartete Unterschiede in der Häufigkeit von 
Durchführungsfehlern und Beeinträchtigungen in der Testsituation zwischen 
den Bundesländern und wurde mit Hilfe von mehreren Hypothesen geprüft: 


e Hypothese 4.1: Abhängig vom Bundesland stehen unterschiedliche Tests 
zur Verfügung. 

e Hypothese 4.2: Abhängig vom Bundesland werden unterschiedlich die 
Durchführungsobjektivität gefährdende Veränderungen vorgenommen. 

e Hypothese 4.3: Abhängig vom Bundesland liegen unterschiedliche Beein- 
trächtigungen wie fehlende oder unvollständige Testmaterialien vor. 

e Hypothese 4.4: Abhängig vom Bundesland liegen unterschiedliche Freihei- 
ten vor zu entscheiden, ob ein Intelligenztest durchgeführt werden soll. 
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e Hypothese 4.5: Abhängig vom Bundesland liegen unterschiedliche Schwie- 
rigkeiten im Umgang mit Durchführungsregeln vor. 

e Hypothese 4.6: Abhängig vom Bundesland wird die Anwendung von Intel- 
ligenztests als schwierig bewertet. 

e Hypothese 4.7: Abhängig vom Bundesland wird die zur Verfügung stehende 
Zeit für die Anwendung als zu kurz bewertet. 


6.1.2.1 Interpretation der Ergebnisse zu den Bundesländervergleichen 


Die Anwendung von Intelligenztests im Bundesländervergleich bestätigen die 
Annahme, dass Kinder abhängig vom jeweiligen Bundesland unter nicht ein- 
heitlichen Bedingungen getestet werden. Für alle elf primär untersuchten Tests 
konnten signifikante Unterschiede bezüglich der Verfügbarkeit gefunden wer- 
den, bei acht der Tests war p < .001. Es stehen somit abhängig vom Bundesland 
unterschiedliche Tests zur Verfügung. Diese Unterschiede allein erhalten je- 
doch erst eine Relevanz, wenn veraltete Tests zur Verfügung stehen, daneben 
aber keine aktuellen. Ansonsten hängt es vom Bundesland ab, ob ein Kind im 
Rahmen der Feststellung sonderpädagogischen Unterstützungsbedarfs ange- 
messen oder unangemessen mit Intelligenztests überprüft werden würde. Bun- 
desländer, die nach eigener Einschätzung der Sonderpädagoglnnen (siehe Hypo- 
these 1) die aussagkräftige KABC-I anwenden (die zudem Stärken/Schwächen 
Analysen zulässt und somit Hinweise auf pädagogische Maßnahmen anbietet), 
würden eher Kindern mit Unterstützungsbedarf gerecht werden als Sonder- 
pädagogInnen aus Bundesländern, die häufiger eindimensionale Tests ohne die 
Möglichkeit von Ableitungen durchführen und zudem evtl. noch auf Grund des 
Flynn-Effekts veraltete Normtabellen und antiquierte Grafiken nutzen. 

Ein exemplarischer Vergleich zwischen KABC-II (aussagekräftig, aktuell, 
mehrdimensional) und SON-R 5%-17 (veraltete ausländische Normen, über- 
holte Stimuli) verdeutlicht anschaulich die Unterschiede. In Nordrhein-West- 
falen z.B. ist der SON-R 5%-17 signifikant häufiger als im Durchschnitt der 
sieben untersuchten Bundesländer'” vorhanden, die KABC-II jedoch signifi- 
kant seltener. In Schleswig-Holstein können 94 Prozent (signifikant mehr) der 
ProbandInnen auf die KABC-II zugreifen, etwas südlicher in Hamburg 38 Pro- 
zent (signifikant weniger). 

Folgende Hinweise zeichnen sich für die untersuchten Bundesländer'” ab: 


129 Es wurden Bundesländer mit akzeptablen Fallzahlen untersucht: Baden-Württemberg 
(N = 130), Hamburg (N = 29), Hessen (N = 109), Niedersachsen (N = 143), Nordrhein- 
Westfalen (N = 465), Rheinland-Pfalz (N = 51) und Schleswig-Holstein (N = 31). 

130 Für Hamburg, Rheinland-Pfalz und Schleswig-Holstein soll auf eine Bewertung der Er- 
gebnisse auf Grund der niedrigeren Fallzahlen verzichtet werden. 
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e Positiv sticht Hessen hervor: kein Test ist signifikant seltener vorhanden, 
aber immerhin sieben Tests signifikant häufiger, darunter die mehrdimen- 
sionalen Tests KABC-II und WISC-IV. Durch die große Auswahl an Tests 
besteht die Möglichkeit, entsprechend der Fragestellung und den Besonder- 
heiten eines Kinds den passgenauen Test zu wählen. 

e Negativ sticht Nordrhein-Westfalen hervor: Lediglich der SON-R 5%-17 
und der SON-R 6-40 sind häufiger vorhanden, sieben weitere Tests signifi- 
kant seltener. Dies bedeutet, dass SonderpädagogInnen in NRW seltener auf 
aussagekräftige Tests zugreifen können. 

e Ebenfalls negativ sticht Niedersachsen hervor: bis auf den CFT20-R sind 
Tests seltener vorhanden (fünf Tests) oder es liegt keine Signifikanz vor 
(fünf Tests). 

e In Baden-Württemberg sind die aussagekräftigeren Tests KABC-O, WPPSI- 
II, SON-R 2%-7 und IDS signifikant häufiger vorhanden. Hier fällt auf, 
dass weniger Wert auf die Tests der CFT-Reihe und auf den SON-R 6-40 
gelegt wird, die jeweils seltener vorhanden sind. 


Sollten aussagekräftigere Tests weniger vorhanden sein, muss dies noch nicht 
besorgen, denn es muss nicht einhergehen mit der häufigeren Anwendung der 
am häufigsten zur Verfügung stehenden Tests. Es ist übliche Praxis, veraltete 
Tests im Testschrank zu belassen'”'. Deshalb kann dieser Befund besser im 
Kontext der ersten drei Hypothesen interpretiert werden. 

Diese ermittelten eine Tendenz, eher einfach durchzuführende Tests anzu- 
wenden, die allerdings auch weniger aussagekräftig sind. Diese Tendenz, ver- 
bunden mit Befunden, die Hinweise geben auf eine geringere Verfügbarkeit aus- 
sagkräftigerer Tests, bzw. eine bessere Verfügbarkeit eindimensionaler Tests, 
könnte den Effekt kumulieren, weniger aussagekräftige Tests anzuwenden. Die- 
ser Effekt ist zu befürchten in Nordrhein-Westfalen und Niedersachsen, aber 
weniger zu befürchten in Hessen. 

Hypothese 4.2 fragte nach den die Durchführungsobjektivität gefährdenden 
Veränderungen. Abhängig vom Bundesland gibt es signifikante Unterschiede 
bezüglich Veränderungen der Durchführungszeiten. Bevor die genaueren Be- 
funde bewertet werden, soll erwähnt sein, dass zur Beantwortung dieser Frage 
bei den ProbandInnen ein Bewusstsein über die nicht korrekte Anwendung der 
Durchführungsregeln unterstellt werden kann. Jede Antwort auf die Frage, ob 
Durchführungszeiten verändert bzw. weggelassen werden, die nicht mit nie be- 
antwortet worden ist, kann als Ergebnis an sich bewertet werden. In Aus- 
nahmefällen gestatten manche Testmanuale eine Abweichung der Durchfüh- 
rungszeiten, sofern diese begründet werden kann und im Testbericht und in der 


131 Vermutlich aus Scheu davor, ehemals sehr teure Tests einfach wegzuwerfen. 
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Interpretation entsprechend gewürdigt wird!” (z.B. bei Kindern mit körper- 
lich-motorischen Beeinträchtigungen). Im günstigsten Fall könnte angenom- 
men werden, dass die bewusste Abweichung vom standardisierten Vorgehen 
wenigstens im Testbericht entsprechend gewürdigt wird und das Vertrauens- 
bzw. Konfidenzintervall vorsichtiger bestimmt wird (z.B. das 90 statt dem 
95 prozentigen Vertrauens-/Konfidenzintervall). 

Doch ein Blick auf die deskriptivstatistische Auswertung der entsprechen- 
den Fragen (Abbildung 14) gibt einen Hinweis, dass nur ca. vier von fünf Pro- 
bandinnen niemals die Durchführungszeiten weggelassen und ca. drei von fünf 
ProbandInnen niemals die Durchführungszeiten verändert haben. Unabhängig 
also von Unterschieden diesbezüglich zwischen den Bundesländern wäre zu- 
mindest eine sorgfältigere Würdigung des standardisierten Vorgehens wün- 
schenswert. Erwähnt sei in diesem Zusammenhang auch, dass es zwar keinen 
signifikanten Unterschied zwischen den Bundesländern bezüglich der Frage nach 
einem unerlaubt gegebenen Feedback während der Testung gegenüber dem 
Kind gibt, jedoch sieben von zehn ProbandInnen diese Abweichung vorgenom- 
men haben, sogar 5 Prozent oft. Die Zahlen dürften jedoch höher sein, da auch 
unbemerkte nonverbale Rückmeldungen (Mimik, Gestik, Reaktionen) zu den 
Feedbacks gehören”. 

Die Hypothese 4.3 gibt einen Hinweis auf unterschiedliche Beeinträchti- 
gungen während der Testanwendung in den Bundesländern. Die Unterschiede 
zwischen den Bundesländern mit ausreichend hohen Fallzahlen (Baden-Würt- 
temberg, Hamburg, Hessen, Niedersachsen, Nordrhein-Westfalen, Rheinland- 
Pfalz, Schleswig-Holstein) sind signifikant (jeweils p < .001). Es kommt unter- 
schiedlich häufig vor, dass Intelligenztests nicht zur Verfügung stehen, die Test- 
materialien unvollständig sind oder Formulare bzw. Arbeitsbögen fehlen. Um 
aus diesen Ergebnissen Rückschlüsse für die Gestaltung der Arbeitsbedingun- 
gen bezüglich der Anwendung von Intelligenztests vornehmen zu können, sol- 
len die Unterschiede skizziert und mit den unterschiedlichen Arbeitsbedingun- 
gen in den Bundesländern in Verbindung gebracht werden. 

Es fällt auf, dass die höchsten Beeinträchtigungen in Schleswig-Holstein 
vorhanden sind, die niedrigsten in Hamburg und Baden-Württemberg. Im Ver- 


132 Selbst in diesem Fall wäre jedoch die Objektivität verletzt, da die Abweichung vom stan- 
dardisierten Vorgehen ein Vergleich zwischen Testergebnis und Normstichprobe zwei- 
felhaft werden ließe. Zumindest im Falle eines moderaten Umgangs mit den vorgeschrie- 
benen Durchführungszeiten könnten die Vertrauens- bzw. Konfidenzintervalle ebenfalls 
niedriger bestimmt werden. 

133 Es könnte eingewendet werden, dass diese unbemerkten Feedbacks über die nonverbale 
Kommunikation auch in den Testungen der Normstichprobe vorkommen könnten und 
somit ausgeglichen werden, doch ist zu erwarten, dass die TesterInnen der Normstich- 
probe besonders geschult sind und die Bedeutung von nonverbalen Feedbacks entspre- 
chend honoriert haben. 
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gleich zwischen zwei Bundesländern fällt auf, dass in sieben Vergleichen Be- 
einträchtigungen in Niedersachsen höher sind, in fünf Fällen in Nordrhein- 
Westfalen und in vier Fällen in Rheinland-Pfalz und Schleswig-Holstein. Keine 
signifikanten Beeinträchtigungen konnten im Vergleich mit anderen Bundes- 
ländern für Hamburg und Baden-Württemberg ermittelt werden. 

Zusammengefasst zeichnet sich die Tendenz ab, dass Beeinträchtigungen in 
Schleswig-Holstein, Niedersachsen, Nordrhein-Westfalen und Rheinland-Pfalz 
eher höher, in Baden-Württemberg und Hamburg eher geringer vorhanden 
sind. Hessische SonderpädagogInnen gaben zumindest an, dass häufiger Test- 
formulare fehlen. 

Im Rahmen der Umsetzung der Inklusion sind Förderschulen aufgelöst 
worden, die in anderen Regelschulen arbeitenden SonderpädagogInnen haben 
einen schlechteren Zugang zu Testverfahren. Dies könnte ein Erklärungsansatz 
für die jeweils höchsten Beeinträchtigungen in Schleswig-Holstein sein. Die 
Umsetzung der Inklusion mit der damit verbundenen Auflösung von Förder- 
schulen und der damit verbundenen Auflösung von Testschränken in den eige- 
nen Räumen liegt allerdings auch in Hamburg vor. 

Die geringsten Beeinträchtigungen in Hamburg könnten damit erklärt wer- 
den, dass eine Spezialisierung bei der Anwendung von Intelligenztests durch 
die ReBBZ (Regionale Bildungs- und Beratungszentren) vorliegt. Es könnte 
auch sein, dass die kürzeren Wege eines Stadtstaates dazu führen, schneller an 
die Tests zu kommen. Dem gegenüber stünde allerdings, dass in Baden-Würt- 
temberg ebenfalls weniger Beeinträchtigungen vorhanden sind. Allerdings ist 
die Inklusionsquote in Baden-Württemberg mit 34 Prozent deutlich niedriger 
als in Hamburg mit 63 Prozent!” (Lange, 2017). Daraus resultiert eine höhere 
Dichte an Förderschulen bzw. Sonderschulen” mit der besseren Verfügbarkeit 
von Testverfahren. Zusammengefasst gibt es Hinweise, dass eine Spezialisie- 
rung auf die Anwendung von Intelligenztests und die bessere Verfügbarkeit zu 
weniger Beeinträchtigungen bei der Anwendung von Intelligenztests führen. 

In Niedersachsen können SonderpädagogInnen sowohl in der Versuchs- als 
auch in der Kontrollgruppe signifikant häufiger selbst entscheiden, ob sie Intel- 
ligenztests anwenden oder nicht, diese Freiheit könnte mit zu den vermehrt 
auftretenden Schwierigkeiten niedersächsischer Lehrkräfte führen. Es ist anzu- 
nehmen, dass Tests seltener angewendet werden, wenn dessen Anwendung 
selbst beschlossen wird und nicht zum institutionalisierten Ablauf gehört. Aus 
einer selteneren Anwendung würde dementsprechend weniger Erfahrungswis- 
sen und Routine entwickelt werden können. 


134 Schuljahr 2015/16. 
135 „Förderschule“ in Baden-Württemberg ist die Bezeichnung für Sonderschulen für Kinder 
mit dem Unterstützungsbedarf Lernen. 
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Hypothese 4.5 erfragte Problematiken im Umgang mit den Umkehr- und 
Abbruchregeln und beim Ausrechnen des Testalters am Testtag. Im Vergleich 
zwischen allen Bundesländern konnten keine Unterschiede festgestellt werden, 
auch wenn Problematiken beschrieben worden sind (siehe Tabelle 19). Im Ver- 
gleich zwischen den Bundesländern mit einer ausreichend hohen Fallzahl erga- 
ben sich keine Signifikanzen, denen eine Bedeutung beigemessen wird'**. 

Der Schwierigkeiten-Index setzt sich aus mehreren Items zusammen. Hypo- 
these 4.6 fragte nach Unterschieden zwischen empfundenen Schwierigkeiten 
bei der Anwendung von Intelligenztests und dem Bundesland. Im Vergleich be- 
werten SonderpädagoglInnen aus Niedersachsen und Schleswig-Holstein die An- 
wendung von Intelligenztests als am schwierigsten, SonderpädagogInnen aus 
Baden-Württemberg und Hessen als am wenigsten schwierig, doch insgesamt 
liegen die Mittelwerte dicht beieinander. Einen signifikanten Unterschied gibt 
es zwischen Baden-Württemberg (weniger Schwierigkeiten) und Niedersachsen 
(mehr Schwierigkeiten). Interessant im Zusammenhang dieser Hypothese ist 
der Vergleich zwischen der Versuchs- und Kontrollgruppe. SonderpädagoglIn- 
nen, die noch niemals an einer Fortbildung zu Intelligenztests teilgenommen 
haben, empfinden deren Anwendung als tendenziell schwieriger, jedoch gibt es 
im Vergleich zwischen den Bundesländern mit einer ausreichenden Fallzahl 
keine signifikanten Ergebnisse. Die bis an diese Stelle diskutierten Ergebnisse 
deuten an, dass die Anwendung von Intelligenztests in Baden-Württemberg 
mit weniger und in Niedersachsen mit mehr Problematiken und Schwierigkei- 
ten verbunden ist. Im Zusammenhang mit der Hypothese 4.4 (kann selbst ent- 
scheiden, einen Intelligenztest durchzuführen) könnte eine Schlussfolgerung 
lauten, dass die größere Freiheit, selbst zu entscheiden, Intelligenztests anzu- 
wenden, mit größeren Schwierigkeiten verbunden ist. 

Die Hypothese 4.7 fragte nach Unterschieden zwischen den Bundesländern 
und der zur Verfügung stehenden Zeit für die Anwendung von Intelligenztests. 
Dazu sollten Aussagen zum Zeitmanagement getroffen werden. Es gehört zu den 
wichtigen Bedingungen bei der Anwendung der Tests, diese ohne Zeitdruck 
durchführen und mit entsprechender Vorbereitungszeit lernen zu können. Be- 
vor aus den Ergebnissen Hinweise zu den diesbezüglichen Arbeitsbedingungen 
in den verschiedenen Bundesländern getroffen werden können, soll ein Blick 
auf die deskriptivstatistische Auswertung verdeutlichen, dass das Zeitmanage- 
ment als ein tatsächliches Problem eingeschätzt wird. Die Frage, ob die Tests in 
der Freizeit vorbereitet werden, wurde auf einer fünfstufigen Skala von völlig 
richtig bis völlig falsch deutlich bejaht mit einem Mittelwert von 1,41 (SD = 
0.73). Auch den anderen Fragen bezüglich der zur Verfügung stehenden Zeit 


136 Lediglich hessische SonderpädagogInnen hatten signifikant mehr Schwierigkeiten beim 
Ausrechnen des Testalters im Vergleich zu rheinland-pfälzischen SonderpädagoglInnen. 
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wurde zugestimmt. Es wird zu wenig Vorbereitungszeit während der Arbeits- 
zeit (M = 2.18; SD = 1.12), zu wenig Zeit für die Durchführung eines sonder- 
pädagogischen Gutachtens (M = 2.38; SD = 1.21) und zu wenig Zeit für die 
Anwendung eines Intelligenztests (M = 2.71; SD = 1.21) attestiert. Es muss fest- 
gestellt werden, dass in diesem Zusammenhang die Arbeitsbedingungen als 
ungünstig von den ProbandInnen eingeschätzt werden. 

Bestehende Unterschiede zwischen den Bundesländern können Hinweise 
darauf geben, wo diese ungünstigen Arbeitsbedingungen besonders stark aus- 
geprägt sind und ob in diesen Bundesländern weitere Schwierigkeiten und Pro- 
blematiken vermehrt auftreten. Tatsächlich kann dies für Niedersachsen und 
Nordrhein-Westfalen festgestellt werden. Zunächst sei festgehalten, dass so- 
wohl unter Einbezug der Gesamtstichprobe als auch unter Einbezug der Bun- 
desländer mit ausreichend hohen Fallzahlen signifikante Unterschiede zwi- 
schen den Bundesländern vorliegen. 

Während in Hessen die mittleren Ränge hoch sind, gleichbedeutend mit 
weniger beschriebenen Problematiken, sind in Hamburg die mittleren Ränge in 
drei von vier Items niedrig, in Niedersachsen und Nordrhein-Westfalen in zwei 
von vier Items zu Zeitproblematiken niedrig (= mehr Schwierigkeiten). Im Ver- 
gleich zwischen zwei Bundesländern liegen elf signifikante Ergebnisse vor: in 
fünf Vergleichen lagen signifikant höhere Beeinträchtigungen bei niedersächsi- 
schen, in vier Fällen bei nordrhein-westfälischen SonderpädagogInnen vor. In 
der Kontrollgruppe liegt ein signifikanter Unterschied zu der Frage vor, ob 
heutzutage weniger Zeit für die Durchführung sonderpädagogischer Gutachten 
vorhanden ist. Hier gaben niedersächsische SonderpädagogInnen eine höhere 
Belastung im Vergleich zu denen aus Rheinland-Pfalz an. 

Der Vollständigkeit halber sei erwähnt, dass niedersächsische Sonderpäd- 
agogInnen zumindest der Frage nach zu wenig zur Verfügung stehenden Vor- 
bereitungszeit zum Lernen eines Tests im Vergleich mit den anderen Bundes- 
ländern am zweitwenigsten zustimmten. 


6.1.2.2 Bedeutung der Ergebnisse für die Sonderpädagogik 


e  Intelligenztests werden unterschiedlich in den Bundesländern angewendet. Es 
kann vom Bundesland abhängen, mit welchem Test und ob unter günstigeren 
oder ungünstigeren Bedingungen die Kinder auf Intelligenz getestet werden. 

e Für Nordrhein-Westfalen und Niedersachsen gibt es Hinweise, dass weniger 
aussagekräftige Tests verwendet werden, teils gar veraltete. Für diese beiden 
Bundesländer gibt es zudem Hinweise, dass die Anwendung von Intelli- 
genztests mit mehr Schwierigkeiten und Problematiken verbunden ist. 

e Für Hessen und Baden-Württemberg gibt es Hinweise, dass nicht nur aus- 
sagekräftigere Tests angewendet werden, sondern die Auswahl zwischen 
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Tests größer ist. So besteht eher die Möglichkeit, den passenden Test für die 
unterschiedlichen Fragestellungen zu wählen. Für Baden-Württemberg gibt 
es zudem Hinweise, dass weniger Schwierigkeiten und Problematiken vor- 
handen sind. 

e Es gibt Hinweise, dass eine Spezialisierung bei der Anwendung von Intelli- 
genztests zu weniger Beeinträchtigungen während der Testsituation führen 
wie das Fehlen von Materialien oder unvollständige Materialien. Dieser Ef- 
fekt liegt in Hamburg vor. 

e Es gibt Hinweise, dass eine höhere Dichte an Förder- bzw. Sonderschulen 
wie in Baden-Württemberg mit der einhergehenden besseren Verfügbarkeit 
von Testverfahren zu weniger Beeinträchtigungen führt. 

e Es gibt Hinweise, dass die Freiheit, darüber selbst zu entscheiden, Intelli- 
genztests anzuwenden oder nicht, zu mehr Schwierigkeiten in der Anwen- 
dung führen. 


Eine bundesweit einheitliche Regelung, wie mit Intelligenztests im sonderpäd- 
agogischen Kontext umgegangen wird, ist nicht zu erwarten. Es widerspräche 
der Kulturhoheit der Länder, wäre aber auch gar nicht notwendig. Es wäre be- 
reits hilfreich, wenn es orientierungsgebende Regelungen gäbe, die im besten 
Fall für jedes Bundesland verbindlich wären. Auch bei vorliegender Kultur- 
hoheit der Länder gibt es die Möglichkeit, über die Kultusministerkonferenzen 
(KMK) Standards festzulegen und zu koordinieren. 

Derzeit hängt es vom Zufall, respektive vom Bundesland ab, ob und wie ein 
Kind im Rahmen einer Gutachtenerstellung getestet wird und wie die Rahmen- 
bedingungen der SonderpädagoglInnen gestaltet sind, in denen die Tests ange- 
wendet werden. Sowohl bei einem Umzug eines Kinds als auch beim Wechsel 
einer SonderpädagogIn in ein anderes Bundesland können die Bedingungen 
sehr unterschiedlich sein. 

Standards zur Anwendung von Intelligenztests könnten beinhalten, Tests 
von der Anwendung auszuschließen (Tests mit veralteten Normierungen und 
Stimuli wie die K-ABC), die Nutzung eines Tests, für den es eine Folgeversion 
gibt, auf zwei Jahre zu begrenzen, Vorschläge für angemessene Tests entspre- 
chend der Unterstützungsbedarfe zu erstellen oder eine Auswahl von verfügba- 
ren Tests vorzuschreiben, damit Tests entsprechend den Bedürfnissen der Kin- 
der gewählt werden können. Es wäre zudem hilfreich, wenn der Zeitrahmen zur 
Verfassung der Gutachten auf mehrere Monate ausgedehnt wird, damit die 
Tests für eine Probe- und Lernphase ausreichend lange ausgeliehen werden 
können. Die gleichzeitige Anfertigung der Gutachten innerhalb weniger Wo- 
chen in einer Region könnte dazu führen, dass viele SonderpädagogInnen die 
Tests nur kurz leihen und dementsprechend nur unter Zeitdruck anwenden 
können. 
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6.1.3 Alter und Geschlecht 


Aus der Forschungsfrage 5 zum Alter und 6 zum Geschlecht resultieren folgen- 
de Hypothesen: 


e Hypothese 5.1: Mit zunehmendem Alter der TesterInnen werden weniger 
Schwierigkeiten bei der Anwendung von Intelligenztests erwartet. 

e Hypothese 5.2: Mit zunehmendem Alter der TesterInnen werden seltener 
aktuelle Tests angewendet. 

e Hypothese 6: Es wird erwartet, dass sich das Geschlecht nicht auf Schwie- 
rigkeiten bei der Anwendung von Intelligenztests auswirkt. 


6.1.3.1 Problematiken im Zusammenhang mit Alter und Geschlecht 


Hintergrund der Prüfung des Zusammenhangs zwischen Alter und empfunde- 
nen Schwierigkeiten ist der Gedanke, dass weniger beschriebene Schwierigkei- 
ten im Umgang mit Intelligenztests durch ältere TestanwenderInnen zu der 
Schlussfolgerung führen könnten, dass Erfahrungswissen zu weniger Problema- 
tiken führt. Infolgedessen wäre dann zu überlegen, wie dieses Erfahrungswissen 
forciert werden könnte, z.B. durch eine Spezialisierung der SonderpädagogIn- 
nen (wenige SonderpädagogInnen führen häufig Tests durch, nicht viele Son- 
derpädagoglInnen selten). Tatsächlich ist ein entsprechender Effekt zu beobach- 
ten. Das Ergebnis ist jedoch nur schwach ausgeprägt und lediglich als Tendenz 
erkennbar.'” In der Kontrollgruppe sind keine signifikanten Zusammenhänge 
feststellbar. 

Auch bei der Prüfung des Zusammenhangs zwischen Alter und Testanwen- 
dung müssen die Ergebnisse vorsichtig interpretiert werden. Die Befürchtung, 
dass ältere TestanwenderInnen bevorzugt veraltete und somit zwar vertraute, 
aber nicht mehr angemessene Tests anwenden, hat sich zwar bestätigt, doch 
führen ältere TestanwenderInnen generell häufiger Tests durch als jüngere, 
auch aktuelle und aussagekräftige Tests. Dies gilt nicht für die KABC-II, aber si- 
gnifikant für den WISC-IV und WPPSI-III. Ein interessantes Nebenergebnis 
ist, dass ältere ProbandInnen häufiger die Wechsler-Tests anwenden, obwohl 
diese eine untergeordnete Rolle in der Sonderpädagogik zu spielen scheinen. 

Es wurde angenommen, dass es keinen Unterschied zwischen Geschlecht 
und empfundenen Schwierigkeiten bei der Anwendung der Tests gibt. Auf 


137 Es sei an dieser Stelle erwähnt, dass grundsätzlich zweigerichtet und konservativ-streng 
geprüft wurde zur Vermeidung von Typ-2 Fehlern. Eine gerichtete Prüfung wäre ent- 
sprechend der Hypothesen-Formulierung legitim und würde zu einem signifikanten Er- 
gebnis führen. 
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zweifelhafte Begriffe wie sehr signifikant oder höchst signifikant soll im Rahmen 
dieser Arbeit verzichtet werden, dennoch kann bei Betrachtung des p-Werts 
von < .001 entgegen der Annahme der Alternativhypothese deutlich formuliert 
werden, dass Männer weniger Schwierigkeiten bei der Anwendung von Intelli- 
genztests beschreiben. Für die Kontrollgruppe werden die Schwierigkeiten ten- 
denziell von Männern geringer beschrieben. 

Es kann ein Unterschied sein, ob weniger Schwierigkeiten vorhanden sind 
oder weniger Schwierigkeiten empfunden werden. In diesem Zusammenhang 
muss offenbleiben, ob Männer ein geringeres Empfinden gegenüber tatsächli- 
chen Schwierigkeiten haben oder ob bei Männern tatsächlich weniger Schwie- 
rigkeiten vorliegen. 


6.1.3.2 Bedeutung der Ergebnisse für die Sonderpädagogik 


Es gibt moderate Hinweise, dass Erfahrungswissen zu weniger Schwierigkeiten 
bei der Anwendung von Intelligenztests führt. Dies bekräftigt die Überlegung 
nach einer Spezialisierung bei der Anwendung von Intelligenztests. 

Eine Spezialisierung weniger SonderpädagogInnen könnte dazu führen, 
dass „Diagnostikansprechpartner“ (Müller, 2009, S. 182) in Fragen der Diagnos- 
tik besonders geschult sind und komplexere Tests durchführen. Es wäre z.B. 
möglich, dass nicht mehr alle innerhalb eines Kollegiums ein Gutachten schrei- 
ben und dementsprechend selten testen, sondern dass von der Erstellung eines 
Gutachtens wenige Lehrkräfte ausgenommen sind. Da diese keine Gutachten 
mehr schreiben müssen und somit Arbeitszeit gewonnen haben, wird diese für 
die Anwendung der aufwändigeren Testverfahren genutzt, für deren häufigere 
Anwendung Routine entwickelt werden könnte. Die gewonnenen Testergebnis- 
se würden in Form von Textbausteinen dem Gutachten beigefügt. 


6.1.4 Ausbildung 


Drei Hypothesen prüften Zusammenhänge zwischen Bildungserfahrungen und 
dem Ausmaß an erlebten Schwierigkeiten: 


e Hypothese 7.1: Das Ausmaß an Schwierigkeiten bei der Anwendung von 
Intelligenztests hängt vom Ausmaß der in der universitären Ausbildung be- 
suchten Seminare zur Testdiagnostik ab. 

e Hypothese 7.2: Das Ausmaß an Schwierigkeiten bei der Anwendung von In- 
telligenztests hängt vom Ausmaß der in der universitären Ausbildung refe- 
rierten Inhalte zur Testdiagnostik ab. 
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e Hypothese 8: Es wird angenommen, dass TeilnehmerInnen an einer außer- 
universitären Fortbildung zur Testdiagnostik weniger Schwierigkeiten bei 
der Anwendung von Testverfahren beschreiben. 


6.1.4.1 Auswirkungen der Ausbildung auf Problematiken 


Der vermutete Zusammenhang ist eindeutig bei der Frage, ob den ProbandIn- 
nen die Anwendung von Intelligenztests leichtfällt: je mehr Seminare bzw. Vor- 
lesungen zum Thema besucht worden sind, desto leichter wird die Anwendung 
der Tests eingeschätzt, sowohl in der Gesamt-, Kontroll- und Versuchsgruppe. 

Keine signifikanten Zusammenhänge können zwischen der Anzahl belegter 
Seminare bzw. Vorlesungen zum Thema und die Durchführungsobjektivität 
gefährdenden Veränderungen wie dem Verändern der Durchführungszeiten 
oder dem unerlaubten Geben von Feedbacks gefunden werden. Es ist jedoch 
fraglich, ob die Bedeutung des standardisierten Vorgehens während einer Test- 
anwendung explicit an der Universität referiert, oder ob die Bedeutung erst in 
der Praxis bewusst wurde. Anders verhält es sich mit den grundlegenden An- 
wendungsregeln. Je mehr Seminare bzw. Vorlesungen besucht worden sind, 
desto signifikant weniger Schwierigkeiten werden bei der Anwendung der Um- 
kehr- und Abbruchregeln beschrieben, aber auch weniger Schwierigkeiten bei 
dem Ausrechnen des Alters am Testtag. 

Auch in der Kontrollgruppe werden tendenziell mehr Schwierigkeiten bei 
der Anwendung der Umkehrregel bei weniger belegten Seminaren beschrieben. 

Das ungewöhnlichste Ergebnis dieser Arbeit soll nicht verschwiegen wer- 
den: in der Kontrollgruppe werden weniger unerlaubte Veränderungen bei den 
Durchführungszeiten vorgenommen, je weniger Seminare besucht worden sind. 
Dieses Ergebnis wird allerdings als Zufallsbefund gewertet. 

In der Hypothese 7.2 wird gezielter nach Unterschieden zwischen in der 
Ausbildung referierten Inhalten und beschriebenen Problematiken bei der An- 
wendung der Tests gefragt. Wurden die fünf Konstrukte Standardabweichung, 
Durchführungsobjektivität, Vertrauens-/Konfidenzintervall, Messungenauigkeit 
und die Gaußsche Kurve der Normalverteilung an der Universität referiert, wer- 
den jeweils weniger Schwierigkeiten bei der Anwendung der Tests beschrieben. 
Diese Unterschiede sind signifikant bei den Konstrukten Standardabweichung, 
Durchführungsobjektivität und Vertrauens-/Konfidenzintervall, tendenziell si- 
gnifikant bei dem Konstrukt Messungenauigkeit/Messfehler. Bei einer Gruppie- 
rung der fünf Konstrukte zu einer gemeinsamen Variablen sind die Ergebnisse 
ebenfalls eindeutig. Signifikant weniger Schwierigkeiten werden zudem be- 
schrieben, wenn an der Universität Intelligenztests ausprobiert worden sind. 

Der Schwierigkeiten-Index besteht auch aus Items, die nicht unmittelbar mit 
der universitären Ausbildung in Verbindung stehen (z.B. Störungen während 
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der Testsituation). Auch wenn es dennoch eindeutige Belege gibt, dass im Rah- 
men der universitären Ausbildung referierte Konstrukte zur Anwendung von 
normierten Testverfahren zu weniger Schwierigkeiten in der praktischen An- 
wendung führen, hat eine detailliertere Prüfung des Zusammenhangs zwischen 
eindeutig universitären Inhalten und Problematiken bei der Anwendung der 
Tests ebenfalls deutliche Ergebnisse ergeben. 

Alle signifikanten Unterschiede ermitteln ausnahmslos weniger Problema- 
tiken, wenn Inhalte zum Thema an der Universität gelehrt worden sind. Wurde 
z.B. die Bedeutung der Durchführungsobjektivität nicht referiert, haben die 
ProbandInnen signifikant mehr Schwierigkeiten im Umgang mit der Umkehr- 
und Abbruchregel, dem Ausrechnen des Alters, und die Anwendung von Tests 
fällt ihnen tendenziell schwerer. Ähnliches gilt, wenn die Bedeutung des Ver- 
trauens- bzw. Konfidenzintervalls nicht gelehrt wurde, zudem fällt den Pro- 
bandInnen die Anwendung der Tests leichter, wenn Intelligenztests an der Uni 
ausprobiert worden sind. 

Es fällt auf, dass teilweise signifikant weniger Problematiken beschrieben 
werden, wenn Inhalte referiert worden sind, die auf den ersten Blick inhaltlich 
mit einer konkreten Problematik wenig zu tun haben. Wurde z.B. die Bedeu- 
tung des Konfidenzintervalls gelehrt, wurden signifikant seltener unerlaubte 
Feedbacks während der Testsituation gegeben. In diesen Fällen könnte es sich 
einerseits um Zufallsbefunde handeln, es könnte aber auch angenommen wer- 
den, dass eine generelle Beschäftigung mit der Thematik im Rahmen der uni- 
versitären Ausbildung mit einem Anwenden der Tests nach den Regeln der 
Kunst einhergeht. 

Es ist möglich, dass die Befunde durch die Auswahl der Stichprobe einge- 
schränkt werden. Die meisten ProbandInnen haben an einer Fortbildung zur 
Testdiagnostik teilgenommen. Für diese Gruppe konnten umfangreiche Signi- 
fikanzen festgestellt werden, für die Kontrollgruppe - ProbandInnen, die noch 
nie an einer Fortbildung zu standardisierten Verfahren teilgenommen hatten - 
konnten hingegen keine Signifikanzen festgestellt werden, in der Kontrollgrup- 
pe sind lediglich zwei Tendenzen zu weniger Schwierigkeiten belegt. 

Es ist denkbar, dass bei der Gesamtstichprobe die geringer beschriebenen 
Problematiken bei der Anwendung der Tests auf die Inhalte der Fortbildung 
zum Thema zurückzuführen sind, aber nicht mehr genau differenziert werden 
konnte, ob diese Inhalte an der Universität oder in der Fortbildung gelehrt 
worden sind. 

Möglich ist allerdings auch, dass bedingt durch die hohe Fallzahl der Ge- 
samtstichprobe Signifikanzen im Gegensatz zu den deutlich geringeren Fallzah- 
len bei der Kontrollgruppe genauer erkannt werden konnten. 

Die Hypothese 8 fragte nach einem Zusammenhang zwischen der Teilnah- 
me an einer außeruniversitären Fortbildung zur Testdiagnostik und Schwierig- 
keiten bei der Anwendung von Intelligenztests. Ergebnisoffen wurde auch hier 
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zweiseitig geprüft mit dem Ergebnis, dass ProbandInnen, die an einer Fortbil- 
dung zum Thema teilnahmen, tendenziell weniger Schwierigkeiten beschrie- 
ben. 

Mögliche Gründe für die geringe Ausprägung könnten neben der evtl. ge- 
ringen Wirksamkeit der Fortbildungen oder der geringe Umfang der Inhalte im 
Rahmen einer ein- bzw. eineinhalbtägigen Veranstaltung auch damit erklärt 
werden, dass besonders verunsicherte und hilfesuchende SonderpädagogInnen 
an einer entsprechenden Fortbildung teilnahmen. 


6.1.4.2 Bedeutung der Ergebnisse für die Sonderpädagogik 


e Esgibt eindeutige Hinweise, dass die Anwendung von Intelligenztests leich- 
ter fällt, je umfangreicher die universitäre Ausbildung war. 

e Es gibt ebenfalls eindeutige Hinweise für weniger Schwierigkeiten bei der 
Anwendung von Durchführungsregeln, wenn die universitäre Ausbildung 
umfangreicher war. 

e Es gibt zumindest für die Gesamtgruppe eindeutige Hinweise, dass die Be- 
handlung an der Universität von zur Testanwendung gehörenden Kon- 
strukten wie Durchführungsobjektivität oder Vertrauens-/Konfidenzintervall 
zu weniger Schwierigkeiten bei dessen Anwendungen führt. 

e Es gibt moderate Hinweise, dass Fortbildungen zum Thema zu weniger 
Schwierigkeiten im Umgang mit Intelligenztests führen. 

e Zusammengefasst kann die Nützlichkeit einer (universitären) Ausbildung 
zum Thema belegt werden bzw. die mit einer Reduzierung von entspre- 
chenden Ausbildungsinhalten verbundenen zu erwartenden Schwierigkei- 
ten. 


Bestrebungen, universitäre Inhalte zum Thema zu reduzieren zugunsten ande- 
rer Inhalte, können als kontraproduktiv angenommen werden. Die Ergebnisse 
dieser Studie sind eindeutig und belegen die Nützlichkeit universitärer Inhalte 
zur Testdiagnostik bezüglich der Anwendungssicherheit. Frühere Auseinander- 
setzungen zwischen VertreterInnen einer Status- bzw. Förderdiagnostik (siehe 
Eberwein, 1996; Kobi, 1977; Bundschuh, 1985, 2007; Eberwein & Knauer, 1998, 
Eggert, 1997; Schlee, 2008) könnten zu einer Reduzierung der referierten Inhal- 
te zur Testdiagnostik an den Universitäten geführt haben. Dies ist allerdings 
wenig nützlich, wenn von den SonderpädagogInnen in der Praxis erwartet 
wird, Testverfahren anzuwenden. 
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6.2 Formularanalyse 


Im zweiten Teil dieser Arbeit wurden Intelligenztestformulare a posteriori auf 
Richtigkeit überprüft. Die Intelligenztests wurden ausschließlich im Rahmen ei- 
ner Begutachtung zur Feststellung sonderpädagogischen Unterstützungsbedarfs 
durchgeführt. Neben der Darstellung der beiden Hypothesen 9 (ein PC-Aus- 
wertungsprogramm erhöht die Auswertungsobjektivität) und 10 (komplexere 
Tests sind fehleranfälliger), die zu der Fehleranalyse der Testformulare gehören, 
sollen auch einige interessante deskriptivstatistische Ergebnisse diskutiert wer- 
den, da sie Hinweise auf die Anwendungspraxis der Tests zulassen. 

Die Auswertung des Fragebogens basiert auf Einschätzungen der ProbandIn- 
nen. Diese sind subjektiv und können Verzerrungen unterliegen. Die Antwort 
z.B. auf die Frage, ob die Anwendung von Intelligenztests leicht falle, kann 
auch davon abhängen, ob man die Anwendung von Intelligenztests mehr oder 
weniger nützlich findet und entsprechend mehr oder weniger gut vorbereitet 
ist. Eine oberflächliche Behandlung mit den Testmanualen, resultierend aus ei- 
ner vielleicht sogar ablehnenden Haltung gegenüber der Statusdiagnostik könn- 
te zur Folge haben, dass die Anwendung der Tests durch eine weniger intensive 
Auseinandersetzung eher leicht fällt. 

Konkrete Fragen zu Schwierigkeiten bei der Anwendung der Durchfüh- 
rungsregeln wie der Abbruch- oder Umkehrregel könnten ebenfalls von persön- 
lichen Voraussetzungen beeinflusst sein. Es ist möglich, dass ein Mangel nicht 
als solcher eingeschätzt wird, wenn es kein Bewusstsein für den Mangel gibt. So 
ist vorgeschrieben, dass bei der Berechnung des Anfangsitems des Nachfolge- 
tests des SON-R 5%-17 geänderte Regeln angewendet werden: Das Anfangs- 
item wird durch den Rohwert eines Durchgangs minus 2 beim SON-R 6-40 be- 
stimmt, während beim SON-R 5%-17 das Anfangsitem bestimmt wird durch 
den Rohwert eines Durchgangs minus 1. Gerade bei Nachfolgeversionen kann 
es vorkommen, dass die Regeln übernommen werden, obwohl sie sich teilweise 
änderten. Bei den Antworten des Fragebogens wäre es möglich, Fragen zu 
Schwierigkeiten bei der Anwendung der Durchführungsregeln als gering einzu- 
schätzen, obwohl die Durchführungsregeln in der Praxis aus Unkenntnis feh- 
lerhaft angewendet werden. 

Die Analyse von Testformularen hat also die Aufgabe, typische Schwierig- 
keiten bei der tatsächlichen Anwendung von Tests festzustellen und die Schwie- 
rigkeiten differenziert darzustellen, um somit entsprechende Konsequenzen 
ziehen zu können. Die Analyse soll auch das Verhältnis zwischen subjektiv ge- 
prägter Einschätzung zu Schwierigkeiten und tatsächlich objektiv feststellbaren 
Schwierigkeiten erkennen. 
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6.2.1 Analyse von Intelligenztestformularen 


In rund drei von fünf Formularen konnten Fehler entdeckt werden. Obwohl die 
Gesamtfehlerquote von ca. 60 Prozent irritierend hoch scheint, ist dies im Kon- 
text früherer Studien ein erfreuliches Ergebnis, in denen teils Fehlerquoten von 
100 Prozent beschrieben worden sind (siehe Alfonso et al., 1998). Dies ist auch 
ein erfreuliches Ergebnis, da weniger Fehler zu weniger möglichen Fehlurteilen 
führen könnten (siehe Lipsius et al., 2008). Es sollte auch nicht vergessen wer- 
den, dass zur Klassischen Testtheorie der grundlegende Gedanke gehört, dass 
Messfehler vorkommen können und diese mit der Verwendung des Konfidenz- 
intervalls aufgefangen werden sollen. In einer Studie von Alfonso et al. (1998) 
war die Methode ähnlich dieser Arbeit. Nachträglich wurden Testformulare auf 
Fehler überprüft; neben der Fehlerquote von 100 Prozent konnten bei den 60 un- 
tersuchten Formularen durchschnittlich 7,8 Fehler entdeckt werden. Im Rah- 
men dieser Untersuchung konnten bei den 248 Formularen insgesamt 367 Fehler 
entdeckt werden, im Schnitt 1,48 Fehler/Formular unter Einbezug der Formu- 
lare ohne Fehler, bzw. 2,43 Fehler im Durchschnitt bei den ausschließlich feh- 
lerhaften Formularen. 

Obwohl dieser Befund als positiv bewertet wird, muss einschränkend er- 
wähnt werden, dass außerordentlich konservativ ausgezählt wurde. Wenn die 
Wahrscheinlichkeit sehr groß für einen Fehler war, wurden Fehler nur dann als 
solche gewertet, wenn sie eindeutig nachweisbar waren. Es ist z.B. sehr unwahr- 
scheinlich, dass TestanwenderInnen nachträglich vor dem Anfangsitem bei 
nicht durchgeführten Items eine Markierung als positiv beantwortet vorneh- 
men, aber auch nicht gänzlich ausgeschlossen, denn es ist legitim, einen eigenen 
Notizenstil während der Testsituation zu nutzen, sei er noch so unwahrschein- 
lich. In diesem Fall wurden die vor dem Anfangsitem vorgenommen Markie- 
rungen (z.B. „1“ für richtig) nicht als Fehler gewertet. 

Diese sehr vorsichtige Auswertung bedeutet allerdings auch, dass die gefun- 
denen Fehler eindeutig welche sind, und auch wenn insgesamt weniger Fehler 
wie in vergleichbaren Studien attestiert werden, können diese teils gravierende 
Auswirkungen auf die Testergebnisse und die daraus resultierenden Schlussfol- 
gerungen haben. Sollten z.B. Bezuschussungen nach dem $35a'* 
dem Gesamt-IQ abhängig gemacht werden (evtl. gar ohne Einbezug des Ver- 
trauens-/Konfidenzintervalls), könnte eine grobe Abweichung durch Fehler bei 
der Durchführungs- und/oder Auswertungsobjektivität sogar zu finanziellen 
Nachteilen führen. 

Es wäre übertrieben, im Rahmen dieser Arbeit von häufig auftretenden gro- 
ben Fehlern zu sprechen, aber eine Randerscheinung sind sie auch nicht. In 


einzig von 


138 $ 35a: Eingliederungshilfe für seelisch behinderte Kinder und Jugendliche. 
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29 Fällen wurden mehr als drei Fehler gemacht. In einem Test sind von elf Sub- 
tests elf falsch durchgeführt worden. In mehreren Subtests bewirkten die Fehler 
Abweichungen von einer Standardabweichung oder mehr; in einem Test lag der 
Gesamtwert bei IQ 90 statt bei dem falsch berechneten Gesamtwert von IQ 67. 
In einem anderen Test wurde das Testalter um ein Jahr falsch bestimmt, was 
eine Verschiebung von mehreren Normtabellen bewirkte; in einem weiteren 
Test sind von sechs Subtests fünf falsch durchgeführt und zudem noch das Al- 
ter um zwei Monate falsch berechnet worden. 

Am häufigsten sind Punkte falsch zusammengezählt worden, danach mach- 
ten die richtige Anwendung der Abbruchregel, die Bestimmung des Anfangs- 
items und die Anwendung der Umkehrregel die meisten Probleme. 

Zusammengenommen werden diese Befunde als weiterer Beleg für eine In- 
tensivierung der Ausbildung gewertet, sei es durch das Studium, sei es durch 
mehr zur Verfügung gestellte Zeit im beruflichen Kontext, um sich intensiver 
auf die Testungen vorzubereiten und um die Tests auszuprobieren. 

Obwohl durch die Berücksichtigung von erheblich mehr Regeln mehr Feh- 
ler bei den mehrdimensionalen Tests möglich sind, wurden bei ausschließlicher 
Betrachtung der fehlerhaften Formulare im Schnitt mehr Gesamtfehler bei den 
eindimensionalen Tests (2,82) gemacht (2,21 im Durchschnitt bei den mehr- 
dimensionalen Tests). Dieser scheinbare Widerspruch könnte damit zusammen- 
hängen, dass die Anwendung der komplizierteren Tests einhergeht mit einer 
Einstellung, sich ausführlich damit zu beschäftigen, während die vermeintlich 
weniger komplizierten Tests dazu verleiten, deren einfachere Anwendung gleich- 
zusetzen mit einer unzureichenden Vorbereitung. Es wäre möglich, mehrdimen- 
sionale Tests aus Überzeugung, eindimensionale Tests eher durchzuführen, 
weil ein Intelligenztestergebnis erwartet und die Anwendung eines einfachen 
Tests weniger ernst genommen wird. Diese Vermutung wird durch das Ergeb- 
nis bestärkt, dass 54 Prozent der eindimensionalen Tests fehlerfrei waren. Ent- 
weder wurden die eindimensionalen Tests weitgehend fehlerfrei durchgeführt 
oder überproportional häufig fehlerhaft. 

Vorherige Hypothesenprüfungen konnten belegen, dass es entsprechend 
der Bildungshoheit der Bundesländer keinen einheitlichen Umgang in der An- 
wendung von Intelligenztests gibt. Diese Unterschiedlichkeit auf unterschiedli- 
che Regelungen in den Bundesländern zurückzuführen, würde jedoch mit Sicher- 
heit zu kurz greifen. Es ist möglich, dass die Anwendung von Intelligenztests 
mit den mehr oder weniger unterschiedlichen Regelungen der verschiedenen 
Schulämter zusammenhängt. Dies in Gänze zu prüfen, wäre ein aufwändiges 
Projekt im Rahmen einer weiteren Untersuchung. Zumindest bei den sechs 
Schulämtern, die sich an dieser Dissertation beteiligten, kann von einem unter- 
schiedlichen Umgang bei der Anwendung von Intelligenztests gesprochen wer- 
den. Entweder wurden die ein- oder die mehrdimensionalen Tests präferiert. 
Im Vergleich zwischen den Schulämtern gibt es signifikante Unterschiede be- 
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züglich der Fehlerhäufigkeiten. Schulamt 6 machte signifikant weniger Fehler, 
sowohl bei den ein- als auch bei den mehrdimensionalen Tests im Vergleich zu 
den anderen Schulämtern. Schulamt 4 hat zumindest nicht signifikant weniger 
oder mehr Fehler bei den eindimensionalen Tests gemacht. Beim Schulamt 6 
handelt es sich um ein den Schulämtern vergleichbares Regionales Bildungs- 
und Beratungszentrum (ReBBZ), in welchem SonderpädagogInnen häufig Tests 
durchführen, also eine Routine in der Anwendung entwickeln konnten. Erneut 
zeichnet sich ein Hinweis auf die nicht nur vermuteten, sondern tatsächlichen 
positiven Auswirkungen einer Spezialisierung bei der Anwendung der Tests ab. 

Im Vergleich zwischen den Tests beeindruckt, dass mehr Fehler bei dem 
einfach zu lernenden SON-R 6-40 gefunden worden sind (durchschnittlich 
1,55 Fehler) als bei der KABC-H (durchschnittlich 1,21 Fehler). Insgesamt be- 
steht der SON-R 6-40 aus so wenigen Regeln wie manche der 18 Subtests der 
KABC-I. Bei der Analyse der Fehler soll kurz erwähnt werden, dass nicht von 
einer Verzerrung der Stichprobe ausgegangen werden kann. Während die Ver- 
mutung im Zusammenhang mit der Analyse der Daten aus dem Fragebogen 
naheliegend ist, dass die Ergebnisse durch die selektive Zusammensetzung der 
Stichprobe beeinflusst worden sind (viele ProbandInnen sind ehemalige Semin- 
arteilnehmerInnen), kann dies für die Analyse der Fehlerhäufigkeiten in den 
Testformularen nicht angenommen werden. Dies bedeutet, die prominente 
Stellung der KABC-I in der Sonderpädagogik wird auch deutlich, wenn es keine 
Hinweise auf eine Beeinflussung der Stichprobe zugunsten der KABC-I gibt. 

Aus den Ergebnissen können auch einige konkrete Hinweise für Schu- 
lungsmaßnahmen abgeleitet werden: 


e eine Auseinandersetzung mit der Bestimmung der Rohwerte für die IDS,' 

e eine Auseinandersetzung mit den Abbruchregeln und den Umkehrregeln 
des WISC-IV,'* 

e eine Auseinandersetzung mit der Bestimmung des Anfangsitems für den 
SON-R 6-40. 


Die Hypothese 9 prüfte, ob es einen Unterschied zwischen der Anzahl gemach- 
ter Fehler und der Nutzung eines Auswertungsprogramms gibt. Dieser Unter- 
schied konnte nicht nachgewiesen werden. Aus diesem Ergebnis kann nur be- 
dingt abgeleitet werden, dass die Nutzung eines Computerprogramms keinen 
Einfluss auf die Auswertungsobjektivität hat, denn für diese Hypothesenprü- 
fung müssen methodische Mängel eingeräumt werden. Es wurde nicht bedacht, 


139 Besonders viele Fehler wurden beim Subtest Aufmerksamkeit selektiv gezählt; diesen Sub- 
test gibt es in einer modifizierten Variante auch in der inzwischen erschienenen IDS-2. 

140 Im inzwischen erschienen Nachfolgetest WISC-V gibt es ebenfalls Umkehr- und Ab- 
bruchregeln in ähnlicher Form (teilweise sogar vereinfacht). 
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dass vor der Nutzung eines Computerprogramms die Tests richtig durchge- 
führt werden und die Rohwerte manuell richtig bestimmt werden müssen. Die 
Prüfung der Intelligenztestformulare auf mögliche Fehler ist unabhängig von 
der Nutzung eines Computerprogramms. Erst nach der Prüfung der meisten 
dieser Arbeit zugrunde liegenden Fragen kommt ein Computerprogramm zum 
Einsatz, spielt also für diese Arbeit keine wesentliche Rolle mehr. 

Bejahten die ProbandInnen die Frage nach der Nutzung eines Computer- 
programms, dann nur für die Tests, bei denen in das Computerprogramm die 
bereits gezählten Rohwerte eingegeben werden, ab hier hörten die meisten der 
Prüfungen für diese Arbeit auf. Es war im geringen Umfang möglich, die Sum- 
me aller per Hand berechneten Gesamtergebnisse mit denen zu vergleichen, die 
per Computer ausgerechnet worden sind. Bei zu vielen Fällen sind allerdings 
bereits vor Berechnung der Gesamtwerte so viele Fehler in den Formularen ge- 
macht worden, dass die Berechnung eines Gesamtergebnisses auf falschen Roh- 
werten basiert hätte, so dass sehr hypothetisch-abstrakte Vergleiche mit fal- 
schen Rohwertbestimmungen vorgenommen worden wären. 

Vorsichtige Hinweise werden für SON-R 6-40, WISC-IV und KABC-I be- 
schrieben: für jeden dieser Tests konnten keine Signifikanzen ermittelt werden 
für die wenigen Fälle, wo mehrere ProbandInnen per Hand und nachvollzieh- 
bar Gesamtergebnisse ermittelten mit den Fällen, in denen Gesamtergebnisse 
per Computerprogramm ausgewertet worden sind. Vorausgesetzt, die Com- 
puterprogramme berechnen zu 100 Prozent“ korrekt, wäre die Bestätigung der 
Nullhypothese ein Beleg für die Sorgfalt bei der Berechnung der Gesamtergeb- 
nisse. 

Die zehnte und somit letzte Hypothese prüfte den Zusammenhang zwischen 
tatsächlichen (und nicht auf Einschätzungen basierenden) Durchführungs- bzw. 
Auswertungsfehlern und der Komplexität eines Tests. Dieser Zusammenhang 
ist signifikant und auch vorhanden, wenn eindimensionale Tests mit mehr- 
dimensionalen verglichen werden und gilt insbesondere für die Anwendung der 
Abbruchregel und der Umkehrregel. Für das Addieren der (Rohwert-)Punkte 
gilt dies nicht: es werden weniger Punkte falsch gezählt, je weniger komplex ein 
Test ist, was als erneuter Beleg dafür gewertet wird, dass die Anwendung von 
aufwändigeren Tests einhergeht mit einer intensiveren Auseinandersetzung. 

Würde diese Vermutung zutreffen, muss dennoch festgestellt werden, dass 
eine noch intensivere Auseinandersetzung mit komplexeren bzw. mehrdimen- 
sionalen Tests angemessen ist. Selbst wenn die Anwendung aufwändigerer 
Tests mit einer angemessenen Auseinandersetzung mit den Tests einhergehen 
würde, die Anzahl real gezählter Fehler nimmt nichtsdestotrotz signifikant mit 
der Komplexität der Tests zu. 


141 Wofür es Gegenbeispiele bei Computerauswertungen aus der Vergangenheit gibt. 
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Eigentlich ist es eine logische Konsequenz, die nicht beunruhigen sollte: je 
mehr Fehler möglich sind, desto mehr Fehler werden gemacht. Wichtig ist die 
Beurteilung, ob die quantitativ vorhandenen Fehler unabhängig von der Kom- 
plexität vertretbar sind und mit der Anwendung eines Vertrauens- bzw. Kon- 
fidenzintervalls hinreichend aufgefangen und relativiert werden können. Im 
Vergleich mit ähnlichen Untersuchungen (Lipsius et al., 2008) ist das Ergebnis 
erfreulich, ändert aber nichts an insgesamt 367 gefunden Fehlern in 151 von 
248 Formularen, die zu falschen Ergebnissen führten, die in Subtests und sogar 
in Gesamtwerten über eine Standardabweichung hinaus vom tatsächlichen 
Ergebnis abwichen. 

Es stellt sich erneut die Frage, ob die Anzahl vorhandener Fehler durch eine 
Spezialisierung mit der einhergehenden Entwicklung einer Routine vor allem 
bei mehrdimensionalen bzw. komplexen Tests verringert werden könnte. 


6.2.2 Zusammenfassung und Bedeutung der Ergebnisse 


e Im Vergleich zu früheren Studien ist die Fehlerquote geringer. Dies kann als 
Beleg für die Qualität und Professionalisierung bei der Anwendung von In- 
telligenztests im sonderpädagogischen Kontext gewertet werden. 

e Es gab weniger ausgewertete Testformulare, die fehlerfrei waren als fehler- 
hafte. Dies wird als Beleg gewertet, die Anwendung von Intelligenztests 
noch professioneller gestalten zu müssen. Es gibt deutliche Hinweise, dass 
eine Spezialisierung zu weniger Fehlern führt. Eine Spezialisierung hätte zur 
Folge, dass wenige SonderpädagogInnen häufig vor allem die komplexen 
Tests durchführen sollten, um eine Routine entwickeln zu können. 

e Aus der Analyse der Fehlerarten und Häufigkeiten können Empfehlungen 
für die Schulämter vorgenommen werden: Bezogen auf die in dieser Unter- 
suchung geprüften Aspekte im Bereich der Durchführungsobjektivität 
könnte Schulamt 4 erwägen, eher eindimensionale Tests durchzuführen, da 
die Ergebnisse kaum von Fehlern beeinträchtigt sind, bei den mehrdimen- 
sionalen Tests werden hingegen überproportional häufig Fehler gemacht. 
Mehrdimensionale Tests wären zwar weniger aussagekräftig, die Ergebnisse 
dafür aber auch weniger von Fehlern beeinflusst. Schulamt 6 hingegen 
könnte empfohlen werden, die aussagkräftigeren mehrdimensionalen Tests 
durchzuführen, da - obwohl durch die höhere Anzahl von Durchführungs- 
regeln fehleranfälliger - im Durchschnitt unter Einbezug aller Formulare 
kaum weniger Fehler festzustellen sind. 

e In wenigen Fällen führten die Fehler in der Testanwendung oder -auswer- 
tung zu Ergebnissen, die über eine Standardabweichung vom korrekten 
Testergebnis abwichen, auch bei Gesamtergebnissen. Da alle Tests im Rah- 
men einer Begutachtung zur Erkennung sonderpädagogischen Förderbedarfs 
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durchgeführt worden sind, können negative Auswirkungen auf die Schluss- 
folgerungen im Rahmen der sonderpädagogischen Begutachtung nicht aus- 
geschlossen werden. 

e Die meisten Fehler werden bei der Bestimmung der Rohwertpunkte, bei der 
Anwendung der Abbruchregel und bei der Anwendung der Umkehrregel 
gemacht, so dass die vertiefende Auseinandersetzung mit diesen Konstruk- 
ten sinnvoll wäre. 

e Auffällig häufig wird beim SON-R 6-40 das Anfangsitem falsch bestimmt. 

e Es gibt erneut Hinweise, dass die KABC-I ein Mittel der Wahl in der Son- 
derpädagogik ist und die Auseinandersetzung mit dem Testmanual ernster 
genommen wird, als bei deutlich einfacher zu lernenden Tests. Obwohl die 
KABC-II die mit Abstand meisten Regeln hat, konnten im Durchschnitt 
weniger Fehler als bei dem SON-R 6-40 gefunden werden, obwohl der Test 
insgesamt so viele Regeln hat wie mancher der 18 Subtests der KABC-II. 

e Es fällt auf, dass entweder viele Fehler gemacht worden sind oder keine bis 
wenige. Es gibt Hinweise, dass die Tests, unabhängig von Dimensionalität 
oder Komplexität, entweder weitgehend beherrscht werden oder ungenü- 
gend. 

e Bei der Anwendung der IDS-2 wird empfohlen, die Regeln zur Zählweise 
für die Bestimmung der Rohwerte für den Subtest Zwei Merkmale durch- 
streichen ausreichend zu internalisieren, da in der Vorgängerversion IDS 
der sehr ähnliche Subtest Aufmerksamkeit selektiv fehleranfällig war. 

e Bei der Anwendung des WISC-V wird empfohlen, die Abbruch- und Um- 
kehrregeln genügend zu internalisieren, da in der Vorgängerversion WISC- 
IV diese fehleranfällig waren und in beiden Versionen ähnlich angewandt 
werden. 

e Mehrdimensionale bzw. komplexere Tests sind signifikant fehleranfälliger, 
was erneut für eine Spezialisierung zur Entwicklung von Routine in der An- 
wendung spricht. 


Auch die Analyse dieser Ergebnisse lässt die Schlussfolgerung zu, dass ein häu- 
figeres Testen als Mittel der Wahl im Sinne einer angemessenen Wahrung der 
Durchführungs- und Auswertungsobjektivität günstig wäre. Werden die Tests 
selten angewendet, steigt nicht nur die Gefahr einer fehlerhaften Anwendung, 
es bindet auch unnötig zeitliche Ressourcen, denn zu einer seltenen Durchfüh- 
rung ohne die Möglichkeit, Routine entwickeln zu können, gehört jedes Mal 
eine zeitintensive Vorbereitung. 

Würden TestexpertInnen häufig testen, könnte sich dies auf die wenigen 
(über-)komplexen Tests wie KABC-H, WISC-IV, WPPSI-III oder IDS bzw. de- 
ren Nachfolgeversionen beschränken. Es würde also nicht eine Kernkompetenz 
in der Sonderpädagogik wegfallen. Sowohl die Anwendung eindimensionaler 
Tests, die Interpretation von allen Testverfahren (auch der komplexen) und die 
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Anwendung weiterer Bausteine der Diagnostik wie z. B. die Beobachtung gehör- 
ten weiter zur diagnostischen Expertise. 

Schlussfolgerungen wie den bis hierhin beschriebenen beschäftigen sich mit 
der Struktur der Arbeit in der Sonderpädagogik, z.B. der Verbesserung der 
Testanwendungen durch eine Spezialisierung, oder die Verlängerung des Zeit- 
raums für eine Gutachtenerstellung. Es könnte allerdings auch hinterfragt wer- 
den, ob die Konstruktion der Testverfahren angemessen ist. Insbesondere kom- 
plexe Tests wie KABC-II oder die Wechsler-Tests sind inklusive aller Regeln ins 
Deutsche adaptiert worden. Es ist nicht anzunehmen, dass genügend berück- 
sichtigt wurde, dass in Deutschland special education teachers im Gegensatz zu 
denen aus anderen Ländern auch Intelligenztests anwenden. Es wäre wün- 
schenswert, wenn bei der Adaption die Arbeitsbedingungen in der Sonderpäd- 
agogik durch eine weniger komplexe Konstruktion berücksichtigt werden wür- 
den. Es ist fraglich, ob ein Test wie die KABC-I alleine für die Testsituation mit 
dem Kind und ohne Berücksichtigung der allgemeinen Regeln aus ca. 580 Re- 
geln bestehen muss. Jeder Subtest hat andere Regeln und es wäre durchaus mög- 
lich, die Regeln für jeden Subtest eines Tests gleich oder ähnlich zu gestalten. 

Eine Perspektive könnte die Konstruktion eines Intelligenztests speziell für 
den sonderpädagogischen Einsatzbereich sein, dessen Anzahl an Regeln den 
Arbeitsbedingungen in der Sonderpädagogik entspricht, dessen Konstruktion 
den speziellen Bedürfnisse der Kinder entspricht (sehr kindgerechte Gestaltung 
der Items zur Erhöhung der Compliance; unbewertete Einführungs-Items; viele 
einfache Items zur Vermeidung von Bodeneffekten usw.) und dessen spezielle 
Normstichproben für die Bereiche Geistige Entwicklung, Lernen etc. den beson- 
deren Kindergruppen in der Sonderpädagogik entsprechen. 


6.3 Methodenkritik und Einschränkungen der Untersuchung 


Die Aussagekraft der Ergebnisse wird durch einige Aspekte beeinträchtigt, die 
im Folgenden beschrieben werden. 

Die Stichprobe resultiert überwiegend aus ehemaligen TeilnehmerInnen 
von Diagnostikseminaren. Vorhandene Datensätze wurden genutzt für die Re- 
krutierung von ProbandInnen für die Beantwortung des Fragebogens, dem 
wichtigsten Pfeiler dieser Untersuchung. Daraus resultiert eine Stichprobe, die 
nicht zwingend die Gesamtheit der SonderpädagoglInnen repräsentiert. So ist es 
möglich, dass die Stichprobe aus Personen besteht, die sich bereits vermehrt 
mit der Anwendung von Intelligenztests beschäftigt haben, es ist auch möglich, 
dass die ProbandInnen besonders verunsichert in der Anwendung der Tests 
sind und sich daraus die Motivation an der Teilnahme an einem Seminar zum 
Thema ableitete. Möglich sind auch Beeinflussungen durch den Autor dieser 
Arbeit, der vielen ProbandInnen als Referenten bekannt ist. Es ist menschlich, 
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eine Haltung zu einer bekannten Person zu entwickeln und sich durch Sympa- 
thie oder Antipathie beeinflussen zu lassen. 

Es ist anzunehmen, dass zumindest die Versuchsgruppe nicht repräsentativ 
für die Gesamtheit der SonderpädagoglInnen steht. Über diese Annahme hinaus 
muss kritisch eingewendet werden, dass Vermutungen über die Zusammenset- 
zung der Versuchsgruppe kaum vorgenommen werden können. Es ist also 
nicht auszuschließen, dass Dritt- bzw. Störvariablen die Ergebnisse beeinflus- 
sen. Es wäre z.B. möglich, dass überproportional häufig ProbandInnen an der 
Befragung teilgenommen haben, die technikaffin genug sind, einen E-Mail An- 
schluss zu konfigurieren, da Anfragen zur Teilnahme an der Studie ausschließ- 
lich elektronisch versandt worden sind'*. In diesem Fall wäre es möglich, dass 
eine positive Einstellung zur Technik und die Anwendung komplexer Tests sich 
gegenseitig beeinflussen und somit die geringe Teilnahme wenig technikaffiner 
ProbandInnen die Ergebnisse verzerren. Es kann also festgehalten werden, dass 
die Studienergebnisse durch eine selektive Auswahl der ProbandInnen beein- 
flusst wurde und es kann festgehalten werden, dass darüber hinaus kaum Hin- 
weise präsentiert werden können, welche Eigenschaften die ProbandInnen der 
Versuchsgruppe repräsentieren. 

Obwohl diese Effekte als gering eingeschätzt werden, können sie nicht gänz- 
lich ausgeschlossen werden. Zur Erhöhung der Repräsentativität wurden Ge- 
wichtungen vorgenommen und es gab Vergleiche mit einer Kontrollgruppe: 
ProbandInnen, die noch nie an einer Fortbildung zum Thema teilnahmen und 
also weder von entsprechenden Inhalten noch vom Referenten beeinflusst wa- 
ren. Es sollte auch bedacht werden, dass bei rund 1100 ProbandInnen bei einer 
Grundgesamtheit von ca. 68000 in Deutschland arbeitenden SonderpädagoglIn- 
nen (Destatis, 2017) es sich um eine Stichprobe nicht nur im Promille-, sondern 
im Prozentbereich handelt. Doch während die Stichprobe mit einer Fallzahl im 
vierstelligen Bereich beeindrucken könnte, träfe dies auf die Kontrollgruppe 
nicht zu. 

Hinzu kommen Belege im Bereich der Wahlforschung, dass eine kleine re- 
präsentative Gruppe genauer ist als eine große, aber weniger repräsentative 
Gruppe (Bandilla, 1999, S. 18). 

Eine weitere Einschränkung liegt im konservativen Vorgehen im Rahmen 
der Signifikanzprüfungen. Die grundsätzlich zweiseitige Prüfung, obwohl eine 
einseitige Prüfung an der einen oder anderen Stelle begründbar wäre, und die 
grundsätzliche Verwendung korrigierter Signifikanzen erhöht die Gefahr, Null- 
hypothesen zu Unrecht zu bestätigen. Diese Arbeit verfolgte bereits im Ansatz 


142 Tatsächlich nutzten SeminarteilnehmerInnen oftmals die Accounts der PartnerInnen 
oder der Schulen für die Anmeldungen zu den Seminaren, in einigen Fällen wurde aus- 
schließlich über den Postweg angemeldet. 
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das Ziel, Schlussfolgerungen aus den Ergebnissen ableiten zu können und gege- 
benenfalls Empfehlungen auszusprechen für den Umgang mit den Tests, für die 
Anschaffungspraxis, für die universitäre Ausbildung oder für den strukturellen 
Rahmen, in denen die Tests durchgeführt werden. 

Die Ergebnisse dieser Arbeit resultieren aus einem konservativen Vorgehen 
und versuchen zu Unrecht abgeleitete Empfehlungen zu verhindern, die dann 
eher anmaßend als hilfreich wären. Die Annahme eines guten Rats für eine 
Verbesserung ist verbunden mit dem Eingeständnis, verbesserungswürdig ge- 
handelt zu haben. Daraus resultiert die Verpflichtung, Ergebnisse eindeutig be- 
legen zu können, erhöht zwangsläufig aber die Gefahr, signifikante Ergebnisse 
nicht entdeckt zu haben. Als Beispiel sei die Bonferroni-Korrektur genannt, die 
teils in der Wissenschaft abgelehnt wird, da sie zu konservativ sei (Hemmerich, 
2015b), für diese Arbeit aber bewusst angewendet worden ist. Der konsequente 
Versuch, Typ-1 Fehler zu vermeiden, erhöht die Gefahr von Typ-2 Fehlern. Ein 
Blick auf die Ergebnisse dieser Arbeit lässt schnell erkennen, dass manche Si- 
gnifikanzen und Tendenzen bei einer weniger vorsichtigen Vorgehensweise er- 
kennbar wären. 

Es muss eingeräumt werden, dass die Berechnung von Effektstärken eine 
sinnvolle Ergänzung an einigen Stellen sein könnte, z.B. bei der Nutzung des 
Chi-Quadrat-Tests, bei dem aus hohen Fallzahlen Signifikanzen bereits bei sehr 
geringen Unterschieden berechnet werden können und in diesen Fällen die Ef- 
fektstärken evtl. Signifikanzen relativieren könnten. Die Bedeutung von Effekt- 
stärken wurde erst am Ende dieser Arbeit erkannt und blieb im Sinne der Ar- 
beitsökonomie unberücksichtigt, wird zumindest als Lernprozess verstanden 
für zukünftige Forschungsarbeiten. 

Einige Hypothesen beschäftigten sich mit Unterschieden in der Anwendung 
der Tests abhängig vom Bundesland. Bei genauerer Betrachtung ist eine Analy- 
se der Anwendungspraxis in den Bundesländern nur schwer möglich, da der 
Rahmen im Umgang mit den Tests nicht einheitlich geregelt scheint in den 
Bundesländern, sondern abhängig vom Schulamt ist, den Einstellungen der 
MitarbeiterInnen der Schulämter zur Testdiagnostik, evtl. sogar von den Ein- 
stellungen der jeweiligen Schulen oder Förderzentren in den zu einem Schul- 
amt gehörenden Regionen, aber auch von politischen Konstellationen, die zu- 
dem wechseln können. Die Inklusionsquote ist steigend und in einigen Bundes- 
ländern ein Politikum und der Erhalt oder die Schließung von Förderschulen 
ideologisch beeinflusst. Eine Plakatparole der Alternative für Deutschland (AfD) 
lautete im Europawahlkampf 2019 „Schließung der Förderschulen verhindern“. 
Die Anwendung von Intelligenztests ist nicht unbeeinflusst von politischen 
Rahmenbedingungen. Ein inklusiv beschultes Kind hat in der Regel einen son- 
derpädagogischen Unterstützungsbedarf attestiert bekommen. Das Attest kann 
stark von Intelligenztestergebnissen beeinflusst sein. Die Ergebnisse können 
also zu einem Anstieg der Quote von Kindern mit Unterstützungsbedarf beitra- 
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gen oder nicht und sind beeinflusst von einem gesellschaftlichen Klima. Son- 
derpädagogInnen könnten sich dem Verdacht von politischer Seite ausgesetzt 
fühlen, leichtfertig sonderpädagogischen Unterstützungsbedarf zu attestieren, 
um die Anzahl der Betreuungsstunden im inklusiven Unterricht zu erhöhen 
und somit dem Verdacht, Intelligenztestergebnisse zu instrumentalisieren. 

Politik als teilweise kurzlebiges Geschäft zu bezeichnen wäre wenig gewagt. 
Dementsprechend ist eine richtungsweisende Orientierung in der Anwendung 
von Intelligenztests in den Bundesländern kaum erkennbar und es bleibt bei 
der richtigen Feststellung von Gaus und Drieschner, die dem Bildungssystem 
absprechen, einer internen Logik zu folgen und es als „labil chaotisch“ bezeich- 
nen (2014, S. 29). Die gefundenen Unterschiede und Zusammenhänge im Ver- 
gleich zwischen den Bundesländern sollten also mit Vorsicht wahrgenommen 
werden, da es zweifelhaft ist, dass die Anwendung von Intelligenztests in den 
Bundesländern kongruenten Bedingungen folgen. Verbindliche Standards für 
die Anwendung wären sinnvoll, vor allem in Anbetracht der Tatsache, dass eine 
der wichtigsten Säulen in sonderpädagogischen Gutachten zur Erkennung von 
Förderbedarf die Würdigung von Intelligenztestergebnissen ist. Positive Bei- 
spiele stellen hier entsprechende Handreichungen in den Bundesländern Berlin 
und Brandenburg dar, die es bereits seit Jahren gibt, und die verbindlich und 
kontinuierlich angepasst an aktuelle Entwicklungen die Anwendung von Intel- 
ligenztests nicht nur in der Sonderpädagogik, sondern sogar in den unter- 
schiedlichen Unterstützungsbedarfen regeln (Land Brandenburg, 2013; Senat 
Berlin, 2012). Es wäre interessant, Unterschiede und Zusammenhänge zwischen 
diesen beiden Bundesländern und den Bundesländern mit wenig geregelten 
Vorgaben zu untersuchen. 

Oben beschriebene Einschränkungen in der Aussagekraft dieser Arbeit re- 
sultieren aus Problematiken, die im Zusammenhang mit den Untersuchungs- 
bedingungen stehen. Eine weitere Einschränkung soll abschließend durch das 
Ausbleiben eines Forschungszweigs beschrieben werden. Diese Arbeit sollte ur- 
sprünglich auf drei Säulen stehen: die Befragung durch den Fragebogen, die 
Untersuchung von Intelligenztestformularen auf Durchführungs- und Auswer- 
tungsfehler und drittens auf Videoanalysen von Testsituationen. Diese nicht 
durchgeführte dritte Säule sollte SonderpädagogInnen bei der Anwendung von 
Intelligenztests filmen, die im Rahmen sonderpädagogischer Begutachtungen 
durchgeführt worden wären. Es ist möglich, dass die Einschätzungen bei der 
Beantwortung des Fragebogens subjektiv geprägt sind. Es ist auch möglich, dass 
Angaben zu Durchführungs- und Auswertungsschwierigkeiten durch ein man- 
gelndes Bewusstsein über entsprechende Problematiken beeinflusst sind. Auf 
die Frage, ob während der Testsituation unerlaubte Rückmeldungen gegeben 
werden, könnte mit „Nein“ beantwortet werden, obwohl unbewusst über die 
nonverbale Kommunikation Rückmeldungen gegeben werden könnten. Eine 
Videoanalyse von realen Testsituationen wäre hilfreich und würde mögliche 
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subjektiv geprägte Einschätzungen objektivieren. So wären Rückschlüsse mög- 
lich im Sinne einer Sensibilisierung gegenüber den Auswirkungen nonverbaler 
Kommunikation über sinnvolle Schulungsinhalte. 

Die notwendigen Datenschutzbestimmungen waren jedoch so aufwändig, 
dass der für die Umsetzung dieses Forschungszweigs notwendige zeitliche Rah- 
men diese Arbeit gesprengt hätte. Es wäre z.B. notwendig gewesen, Verträge 
mit den Datenschutzbeauftragten der jeweiligen Bundesländer bzw. Regionen 
mit jeweils anderen Bestimmungen abzuschließen, für jedes Kind einen Vertrag 
mit den Schulleitungen und einen Vertrag mit den Eltern. Neben dem Angebot 
individueller Rückmeldungen sollten monetäre Anreize SonderpädagogInnen 
ermutigen, sich an der Studie zu beteiligen. Dem stand gegenüber, dass die 
meist verbeamteten Lehrkräfte keine Zusatzeinkünfte während der Arbeitszeit 
erzielen dürfen. Es gab zusammengefasst so viele Hürden, dass ohne je eine 
Videoaufnahme verwirklicht zu haben, so viel Zeit und Mühen durch Telefona- 
te, Akquise, Beratungen und Vertragsprüfungen investiert worden sind wie für 
das Schreiben mehrerer Kapitel dieser Arbeit. Abschließend betrachtet kann 
ohne Wertung und nicht kritisierend festgestellt werden, dass der Datenschutz 
den Forscherdrang ausgebremst hat. Bedingt durch den rechtlichen und zeitli- 
chen Aufwand könne eine Videoanalyse an sich Forschungsgegenstand im Rah- 
men eines vermutlich umfangreichen Forschungsdesigns sein. 

Die vorliegenden Befunde dieser Arbeit wären abgerundet gewesen bei einer 
Umsetzung des Videoprojekts und deshalb soll die Nichtverwirklichung als 
Einschränkung beschrieben werden. 


6.4 Fazit und Ausblick 


Ziel dieser Arbeit war es, Alltagsbeobachtungen, resultierend aus vielfach 
durchgeführten Fortbildungen zu standardisierten normierten Testverfahren, 
empirisch zu belegen. Von SonderpädagoglInnen beklagte strukturelle Mängel 
bei der Anwendung von Intelligenztests wurden ebenso festgestellt wie beob- 
achtete Mängel in der Durchführungs- und Auswertungsobjektivität. Unter- 
schiede in der Anwendungspraxis führen dazu, dass die Auswahl der Testver- 
fahren eher von der Region und weniger von den Fragestellungen und Beson- 
derheiten der Kinder abhängen. Im Vergleich zu ähnlichen Untersuchungen ist 
die Anzahl gemachter Fehler bei der Anwendung der Tests gesunken, was für 
die Qualität der Anwendung von Intelligenztests im sonderpädagogischen Kon- 
text spricht. Es werden allerdings eher einfach durchzuführende Tests mit Aus- 
nahme der KABC-H präferiert, obwohl aussagekräftigere Tests zur Verfügung 
stehen. 

Abgeleitet aus den Ergebnissen sind mehrere Schlussfolgerungen möglich. 
Es gibt eindeutige Belege, dass die mehrdimensionalen Tests geeigneter und 
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aussagekräftiger, somit nützlicher für den sonderpädagogischen Kontext sind. 
Die logische Konsequenz ist die häufigere Anwendung dieser Tests. 

Es gibt Hinweise, dass eine Spezialisierung zu einer verbesserten Anwen- 
dung der Tests führt. Daraus kann die Empfehlung resultieren, dass zumindest 
die komplexen bzw. mehrdimensionalen Tests von wenigen Sonderpädagogln- 
nen häufig und nicht von vielen selten durchgeführt werden. Dies betrifft einige 
wenige aufwändige Tests und berührt und reduziert nicht die generelle dia- 
gnostische Expertise von SonderpädagogInnen. 

Es gibt deutliche Hinweise, dass sich das Ausmaß universitärer Inhalte zur 
Testdiagnostik positiv auf die Anwendung auswirkt. Daraus kann die Empfeh- 
lung zu einer umfangreicheren Ausbildung, zumindest nicht zu einem Abbau 
der Inhalte im Rahmen der universitären Ausbildung resultieren. 

Auch ein persönliches Fazit soll gezogen werden. Durch die vor Beginn 
selbst vielfach durchgeführten Intelligenztests und durch das Referieren derer 
Anwendung im Rahmen von Fortbildungen, bestand bereits vor Beginn dieser 
Arbeit eine gefestigte Haltung gegenüber Intelligenztests. Diese Haltung hat 
sich modifiziert. Es ist erstaunlich, wie viel im Rahmen einer umfangreichen 
Studie an Wissen hinzukommt. Die intensive Auseinandersetzung zur Thema- 
tik führte dazu, die Anwendung von Intelligenztests und dessen Ergebnisse 
noch kritischer zu betrachten. Dies kann begründet werden sowohl mit der In- 
strumentalisierung der Ergebnisse für zweifelhafte Zwecke (Intelligenztests als 
Kriegsmittel; zur Verbesserung der menschlichen Rasse im Rahmen eugeni- 
scher Bestrebungen; als Grundlage für rassistische Argumentationslinien). Es 
kann aber auch mit vielfachen methodischen Mängeln begründet werden, die 
vermutlich deutlicher zu Tage treten, je intensiver sich mit einem Thema be- 
schäftigt wird. Weder das Konstrukt Intelligenz ist je bewiesen noch die Nor- 
malverteilung des nicht bewiesenen Konstrukts Intelligenz; die Begründung für 
die Validität wird durch Vergleiche mit anderen Tests seit jeher belegt, doch 
war bereits der erste Test in dieser Begründungskette methodisch fragwürdig 
und ein Grundgedanke der Klassischen Testtheorie ist die Fehlerhaftigkeit der 
Tests. 

Die Nützlichkeit von Intelligenztests soll nach wie vor nicht in Frage gestellt 
werden, die Interpretation von Testergebnissen wird aber mit mehr Respekt 
und Vorsicht vorgenommen werden. Im Rahmen der Anwendung von Intelli- 
genztests im sonderpädagogischen Kontext wäre zu wünschen, dass Intelligenz- 
testergebnisse nicht die Grundlage eines sonderpädagogischen Gutachtens, son- 
dern eine Ergänzung sind, insbesondere für die Unterstützungsbedarfe Lernen 
und Geistige Entwicklung. 

Abgeleitet aus den Befunden dieser Arbeit resultieren Forschungsvorhaben 
für die Zukunft. 

Die bereits geplante Videoanalyse von Testsituationen könnte weitere Hin- 
weise auf Schwierigkeiten bei der Anwendung der Tests ergeben. Daraus könn- 
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ten sich konkrete Schulungsmaßnahmen ableiten lassen und in Bezug zu den 
Befunden dieser Arbeit gesetzt werden. 

Ein Forschungsvorhaben könnte die Realisierung von Handreichungen für 
die Anwendung von Intelligenztests, welche im Rahmen sonderpädagogischer 
Begutachtungen durchgeführt werden, für eine Region oder ein Schulamt sein, 
auch unter Berücksichtigung bereits bestehender Handreichungen. Die Umset- 
zung der Empfehlungen könnte begleitet werden mit einer Evaluation bezüg- 
lich der Qualität der sonderpädagogischen Gutachten. 

Interessant wäre zudem die Erfassung zu Einstellungen von Sonderpäd- 
agogInnen zur Intelligenzdiagnostik. Daraus ließen sich Schlussfolgerungen für 
die Anwendung der Tests ziehen. Läge z.B. ein geringer Glaube an die Nütz- 
lichkeit vor, wären die positiven Aspekte der Intelligenzdiagnostik hervorzuhe- 
ben, z.B. Hinweise für die Unterrichtsgestaltung bei erkannten Defiziten oder 
Ressourcen. Resultieren aus den Ergebnissen Hinweise auf Mängel zu testtheo- 
retischen Konstrukten, können diese deutlicher im Rahmen des Studiums her- 
vorgehoben werden. Daten für ein solches Projekt sind aus ökonomischen 
Gründen bereits mit den Daten für diese Arbeit miterhoben worden. 

Die u.a. in dieser Arbeit gefundenen Schwierigkeiten im Umgang mit Intel- 
ligenztests könnten zu Empfehlungen bezüglich besserer Schulungen im Um- 
gang mit den Durchführungsregeln oder zu einer Verbesserung der struktu- 
rellen Rahmenbedingungen führen, um die Schwierigkeiten zu verringern. Es 
scheint logisch, dass bei vermehrten Fehlern bei den Umkehr- und Abbruch- 
regeln die Anwendung dieser Regeln genauer beachtet werden sollte. Ansätze 
dieser Art setzen bei den TestanwenderInnen an. 

Es wäre aber auch möglich, die Anwendungsregeln weniger komplex zu ge- 
stalten. Dieser Ansatz setzt bei der Konstruktion der Intelligenztests an. 

Tests wie die KABC-II oder WISC-IV gelten im Ursprungsland USA als 
Level C Tests, dürfen dort nur von besonders befähigten Personen durchgeführt 
werden, z.B. speziell geschulten PsychologInnen. Die Anwendung von Intelli- 
genztests ist zwar ein wichtiger, aber meist selten umgesetzter Arbeitsbereich 
im sonderpädagogischen Kontext. 

Ein lohnendes Projekt wäre die Konstruktion einer Intelligenztestbatterie, 
bei der sich die Regeln in jedem Subtest gleichen und die sich auf das Notwen- 
digste beschränken. Solch ein Test würde den besonderen Arbeitsbedingungen 
in der Sonderpädagogik Rechnung tragen und kann dennoch aussagekräftig 
sein. 

Ansätze hierzu bietet der SON-R 6-40. Jeder der vier Subtests unterliegt den 
gleichen Regeln. Durch das adaptive Testsystem (das Testergebnis eines Durch- 
gangs bestimmt das Anfangsitem des nächsten Durchgangs, angepasst an die 
Fähigkeit des Kinds) werden fehleranfällige Regeln wie die Umkehrregel ver- 
hindert. Der SON-R 6-40 ist zwar nur bedingt aussagekräftig, aber es sollte 
möglich sein, statt vier Subtests eine Vielzahl von Subtests zu konstruieren bei 
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gleichzeitiger Beibehaltung der wenigen, sich in jedem Subtest wiederholenden 
Regeln. Ein weiterer Ansatz in die beschriebene Richtung kann für die Nach- 
folgeversion des WISC-IV (Petermann & Petermann, 2007) festgestellt werden, 
da die aus dem WISC-IV bekannten Regeln sich nun im Sinne der Anwen- 
dungsfreundlichkeit beim WISC-V (Wechsler, 2017) vereinfacht und reduziert 
haben. 
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